Multithreaded Programming in. Cilk LECTURE 2. Charles E. Leiserson

Size: px

Start display at page:

Download "Multithreaded Programming in. Cilk LECTURE 2. Charles E. Leiserson"

Cameron Webb
6 years ago
Views:

1 Multithreaded Programming in Cilk LECTURE 2 Charles E. Leiserson Supercomputing Technologies Research Group Computer Science and Artificial Intelligence Laboratory Massachusetts Institute of Technology

2 Minicourse Outline LECTURE 1 Basic Cilk programming: Cilk keywords, performance measures, scheduling. LECTURE 2 Analysis of Cilk algorithms: matrix multiplication, sorting, tableau construction. LABORATORY Programming matrix multiplication in Cilk Dr. Bradley C. Kuszmaul LECTURE 3 Advanced Cilk programming: inlets, abort, speculation, data synchronization, & more. July 14,

3 LECTURE 2 Recurrences (Review) Matrix Multiplication Merge Sort Tableau Construction Conclusion July 14,

4 The Master Method The Master Method for solving recurrences applies to recurrences of the form T(n) = at(n/b) + f (n),* where a 1, b > 1, and f is asymptotically positive. IDEA: Compare n log ba b a with f (n).. *The unstated base case is T(n) = Θ(1) for sufficiently small n. July 14,

5 Master Method CASE 1 T(n) = at(n/b) + f (n) n log ba ba À f (n) Specifically, f(n) = O(n log b a ε ) for some constant ε > 0. Solution: T(n) = Θ(n log ba ). July 14,

6 Master Method CASE 2 T(n) = at(n/b) + f (n) n log ba ba f (n) Specifically, f(n) = Θ(n log b a lg k n) for some constant k 0. Solution: T(n) = Θ(n log ba lg k+1 n). July 14,

7 Master Method CASE 3 T(n) = at(n/b) + f (n) n log ba ba f (n) Specifically, f(n) = Ω(n log b a + ε ) for some constant ε > 0 and f (n) satisfies the regularity condition that af(n/b) cf(n) for some constant c < 1. Solution: T(n) = Θ(f (n)). July 14,

8 Master Method Summary T(n) = at(n/b) + f (n) CASE 1: f(n) = O(n log ba ε ), constant ε > 0 T(n) = Θ(n log ba ). CASE 2: f (n) = Θ(n log ba lg k n), constant k 0 T(n) = Θ(n log ba lg k+1 n). CASE 3: f (n) = Ω(n log ba + ε ), constant ε > 0, and regularity condition T(n) = Θ( f (n)). July 14,

9 Master Method Quiz T(n) = 4 T(n/2) + n n log b a = n 2 À n CASE 1: T(n) = Θ(n 2 ). T(n) = 4 T(n/2) + n 2 n log b a = n 2 = n 2 lg 0 n CASE 2: T(n) = Θ(n 2 lg n). T(n) = 4 T(n/2) + n 3 n log b a = n 2 n 3 CASE 3: T(n) = Θ(n 3 ). T(n) = 4 T(n/2) + n 2 /lg n Master method does not apply! July 14,

10 LECTURE 2 Recurrences (Review) Matrix Multiplication Merge Sort Tableau Construction Conclusion July 14,

11 Square-Matrix Multiplication c 11 c 12 L c 1n c 21 c 22 L c 2n M M O M c n1 c n2 L c nn a 11 a 12 L a 1n a 21 a 22 L a 2n = M M O M a n1 a n2 L a nn b 11 b 12 L b 1n b 21 b 22 L b 2n M M O M b n1 b n2 L b nn C A B n c ij = k = 1 a ik b kj Assume for simplicity that n = 2 k. July 14,

12 Recursive Matrix Multiplication Divide and conquer C 11 C 12 A 11 A 12 C 21 C 22 = A 21 A 22 B 11 B 12 B 21 B 22 = A 11 B 11 A 11 B 12 + A 21 B 11 A 21 B 12 A 12 B 21 A 12 B 22 A 22 B 21 A 22 B 22 8 multiplications of (n/2) (n/2) matrices. 1 addition of n n matrices. July 14,

13 Matrix Multiply in Pseudo-Cilk cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); spawn Mult(C22,A21,B12,n/2); spawn Mult(C21,A21,B11,n/2); spawn Mult(T11,A12,B21,n/2); spawn Mult(T12,A12,B22,n/2); spawn Mult(T22,A22,B22,n/2); spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); return; C = A B Absence of type declarations. July 14,

14 Matrix Multiply in Pseudo-Cilk cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); spawn Mult(C22,A21,B12,n/2); spawn Mult(C21,A21,B11,n/2); spawn Mult(T11,A12,B21,n/2); spawn Mult(T12,A12,B22,n/2); spawn Mult(T22,A22,B22,n/2); spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); return; C = A B Coarsen base cases for efficiency. July 14,

15 Matrix Multiply in Pseudo-Cilk cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); spawn Mult(C22,A21,B12,n/2); spawn Mult(C21,A21,B11,n/2); spawn Mult(T11,A12,B21,n/2); spawn Mult(T12,A12,B22,n/2); spawn Mult(T22,A22,B22,n/2); spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); Submatrices are return; C = A B Also need a rowsize argument for array indexing. produced by pointer calculation, not copying of elements. July 14,

16 Matrix Multiply in Pseudo-Cilk cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); spawn Mult(C22,A21,B12,n/2); spawn Mult(C21,A21,B11,n/2); spawn Mult(T11,A12,B21,n/2); spawn Mult(T12,A12,B22,n/2); spawn Mult(T22,A22,B22,n/2); spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); cilk void Add(*C, *T, n) n) { h h base case & partition matrices ii return; spawn Add(C11,T11,n/2); spawn Add(C12,T12,n/2); spawn Add(C21,T21,n/2); spawn C = A B Add(C22,T22,n/2); return; C = C + T July 14,

17 Work of Matrix Addition cilk void Add(*C, *T, n) { hhbase case & partition matrices ii spawn Add(C11,T11,n/2); spawn Add(C12,T12,n/2); spawn Add(C21,T21,n/2); spawn Add(C22,T22,n/2); return; Work: A 1 (n) = 4A? 1 (n/2) + Θ(1) = Θ(n 2 ) CASE 1 n log b a = n log 2 4 = n 2 À Θ(1). July 14,

18 maximum Span of Matrix Addition cilk void Add(*C, *T, n) { h h base case & partition matrices i i spawn Add(C11,T11,n/2); spawn Add(C12,T12,n/2); spawn Add(C21,T21,n/2); spawn Add(C22,T22,n/2); return; Span: A (n)= A? (n/2) + Θ(1) = Θ(lg n) CASE 2 n log b a = n log 2 1 = 1 f (n) = Θ(n log b a lg 0 n). July 14,

19 Work of Matrix Multiplication 8 cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); MM spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); return; Work: M 1 (n)= 8? M 1 (n/2) +A 1 (n) + Θ(1) =8M 1 (n/2) + Θ(n 2 ) = Θ(n 3 ) CASE 1 n log b a = n log 2 8 = n 3 À Θ(n 2 ). July 14,

20 Span of Matrix Multiplication 8 cilk void Mult(*C, *A, *B, n) n) { float *T *T = Cilk_alloca(n*n*sizeof(float)); h h base case & partition matrices i i spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); M M spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); return; Span: M (n)= M? (n/2) + A (n) + Θ(1) = M (n/2) + Θ(lg n) = Θ(lg 2 n) CASE 2 n log b a = n log 2 1 = 1 f (n) = Θ(n log b a lg 1 n). July 14,

21 Parallelism of Matrix Multiply Work: Span: M 1 (n)= Θ(n 3 ) M (n)= Θ(lg 2 n) Parallelism: M 1 (n) M (n) = Θ(n 3 /lg 2 n) For matrices, parallelism (10 3 ) 3 /10 2 = July 14,

22 Stack Temporaries cilk void Mult(*C, *A, *B, n) n) { float *T = Cilk_alloca(n*n*sizeof(float)); hhbase case & partition matrices ii spawn Mult(C11,A11,B11,n/2); spawn Mult(C12,A11,B12,n/2); MM spawn Mult(T21,A22,B21,n/2); spawn Add(C,T,n); return; In hierarchical-memory machines (especially chip multiprocessors), memory accesses are so expensive that minimizing storage often yields higher performance. IDEA: Trade off parallelism for less storage. July 14,

23 No-Temp Matrix Multiplication cilk void MultA(*C, *A, *B, n) n) { // // C = C + A * B hhbase case & partition matrices ii spawn MultA(C11,A11,B11,n/2); spawn MultA(C12,A11,B12,n/2); spawn MultA(C22,A21,B12,n/2); spawn MultA(C21,A21,B11,n/2); spawn MultA(C21,A22,B21,n/2); spawn MultA(C22,A22,B22,n/2); spawn MultA(C12,A12,B22,n/2); spawn MultA(C11,A12,B21,n/2); return; Saves space, but at what expense? July 14,

24 Work of No-Temp Multiply cilk void MultA(*C, *A, *B, n) n) { // // C = C + A * B hhbase case & partition matrices ii spawn MultA(C11,A11,B11,n/2); spawn MultA(C12,A11,B12,n/2); spawn MultA(C22,A21,B12,n/2); spawn MultA(C21,A21,B11,n/2); spawn MultA(C21,A22,B21,n/2); spawn MultA(C22,A22,B22,n/2); spawn MultA(C12,A12,B22,n/2); spawn MultA(C11,A12,B21,n/2); return; Work: M 1 (n)= 8? M 1 (n/2) + Θ(1) = Θ(n 3 ) CASE 1 July 14,

25 Span of No-Temp Multiply maximum maximum cilk void MultA(*C, *A, *B, n) n) { // // C = C + A * B h h base case & partition matrices i i spawn MultA(C11,A11,B11,n/2); spawn MultA(C12,A11,B12,n/2); spawn MultA(C22,A21,B12,n/2); spawn MultA(C21,A21,B11,n/2); spawn MultA(C21,A22,B21,n/2); spawn MultA(C22,A22,B22,n/2); spawn MultA(C12,A12,B22,n/2); spawn MultA(C11,A12,B21,n/2); return; Span: M (n)= 2? M (n/2) + Θ(1) = Θ(n) CASE 1 July 14,

26 Parallelism of No-Temp Multiply Work: Span: M 1 (n)=θ(n 3 ) M (n)=θ(n) Parallelism: M 1 (n) M (n) = Θ(n 2 ) For matrices, parallelism (10 3 ) 3 /10 3 = Faster in practice! July 14,

27 Testing Synchronization Cilk language feature: A programmer can check whether a Cilk procedure is synched (without actually performing a sync) by testing the pseudovariable SYNCHED: SYNCHED = 0 some spawned children might not have returned. SYNCHED = 1 all spawned children have definitely returned. July 14,

28 Best of Both Worlds cilk void Mult1(*C, *A, *A, *B, *B, n) n) {// {// multiply & store hhbase base case case & partition matrices ii spawn Mult1(C11,A11,B11,n/2); // // multiply & store spawn Mult1(C12,A11,B12,n/2); spawn Mult1(C22,A21,B12,n/2); spawn Mult1(C21,A21,B11,n/2); if if (SYNCHED) { spawn MultA1(C11,A12,B21,n/2); // // multiply & add add spawn MultA1(C12,A12,B22,n/2); spawn MultA1(C22,A22,B22,n/2); spawn MultA1(C21,A22,B21,n/2); else { float *T *T = Cilk_alloca(n*n*sizeof(float)); spawn Mult1(T11,A12,B21,n/2); // // multiply & store spawn Mult1(T12,A12,B22,n/2); This code is is just as parallel spawn Mult1(T22,A22,B22,n/2); spawn Mult1(T21,A22,B21,n/2); as the original, but it it only spawn Add(C,T,n); uses // // C more = C + space T if if runtime parallelism actually exists. return; July 14,

29 Ordinary Matrix Multiplication n c ij = k = 1 a ik b kj IDEA: Spawn n 2 inner products in parallel. Compute each inner product in parallel. Work: Θ(n 3 ) Span: Θ(lg n) Parallelism: Θ(n 3 /lg n) BUT, this algorithm exhibits poor locality and does not exploit the cache hierarchy of modern microprocessors, especially CMP s. July 14,

30 LECTURE 2 Recurrences (Review) Matrix Multiplication Merge Sort Tableau Construction Conclusion July 14,

31 Merging Two Sorted Arrays void Merge(int *C, *C, int int *A, *A, int int *B, *B, int int na, na, int int nb) nb) { while (na>0 && && nb>0) { if if (*A (*A <= <= *B) *B) { *C++ = *A++; na--; else { *C++ = *B++; nb--; Time to merge n while (na>0) { elements *C++ = *A++; na--; = Θ(n).? while (nb>0) { *C++ = *B++; nb--; July 14,

32 merge merge merge Merge Sort cilk void MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn MergeSort(C, A, A, n/2); spawn MergeSort(C+n/2, A+n/2, n-n/2); Merge(B, C, C, C+n/2, n/2, n-n/2); July 14,

33 Work of Merge Sort cilk void MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn MergeSort(C, A, A, n/2); spawn MergeSort(C+n/2, A+n/2, n-n/2); Merge(B, C, C, C+n/2, n/2, n-n/2); Work: T 1 (n)= 2T? 1 (n/2) + Θ(n) = Θ(n lg n) CASE 2 n log b a = n log 2 2 = n f (n) = Θ(n log b a lg 0 n). July 14,

34 Span of Merge Sort cilk void MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn MergeSort(C, A, A, n/2); spawn MergeSort(C+n/2, A+n/2, n-n/2); Merge(B, C, C, C+n/2, n/2, n-n/2); Span: T (n)= T?(n/2) + Θ(n) = Θ(n) CASE 3 n log b a = n log 2 1 = 1 Θ(n). July 14,

35 Parallelism of Merge Sort Work: Span: T 1 (n)=θ(n lg n) T (n)=θ(n) Parallelism: T 1 (n) T (n) = Θ(lg n) We need to parallelize the merge! July 14,

36 Parallel Merge A 0 na/2 na A[na/2] A[na/2] Recursive merge Binary search Recursive merge B A[na/2] A[na/2] 0 j j+1 nb na nb KEY IDEA: If the total number of elements to be merged in the two arrays is n = na + nb, the total number of elements in the larger of the two recursive merges is at most (3/4)? n. July 14,

37 Parallel Merge cilk void P_Merge(int *C, *C, int int *A, *A, int int *B, *B, int int na, na, int int nb) nb) { if if (na (na < nb) nb) { spawn P_Merge(C, B, B, A, A, nb, nb, na); else if if (na==1) { if if (nb (nb == == 0) 0) { C[0] = A[0]; else { C[0] = (A[0]<B[0])? A[0] : B[0]; /* /* minimum */ */ C[1] = (A[0]<B[0])? B[0] : A[0]; /* /* maximum */ */ else { int int ma ma = na/2; int int mb mb = BinarySearch(A[ma], B, B, nb); spawn P_Merge(C, A, A, B, B, ma, ma, mb); spawn P_Merge(C+ma+mb, A+ma, B+mb, na-ma, nb-mb); Coarsen base cases for efficiency. July 14,

38 Span of P_Merge cilk void P_Merge(int *C, *C, int int *A, *A, int int *B, *B, int int na, na, int int nb) nb) { if if (na (na < nb) nb) { M else { int int ma ma = na/2; int int mb mb = BinarySearch(A[ma], B, B, nb); spawn P_Merge(C, A, A, B, B, ma, ma, mb); spawn P_Merge(C+ma+mb, A+ma, B+mb, na-ma, nb-mb); Span: T (n)= T?(3n/4) + Θ(lg n) = Θ(lg 2 n) CASE 2 n log b a = n log 4/3 1 = 1 f (n) = Θ(n log b a lg 1 n). July 14,

39 Work of P_Merge cilk void P_Merge(int *C, *C, int int *A, *A, int int *B, *B, int int na, na, int int nb) nb) { if if (na (na < nb) nb) { M else { int int ma ma = na/2; int int mb mb = BinarySearch(A[ma], B, B, nb); spawn P_Merge(C, A, A, B, B, ma, ma, mb); spawn P_Merge(C+ma+mb, A+ma, B+mb, na-ma, nb-mb); Work: T 1 (n) = T? 1 (αn) + T 1 ((1 α)n) + Θ(lg n), where 1/4 α 3/4. CLAIM: T 1 (n) = Θ(n). July 14,

40 Analysis of Work Recurrence T 1 (n) = T 1 (αn) + T 1 ((1 α)n) + Θ(lg n), where 1/4 α 3/4. Substitution method: Inductive hypothesis is T 1 (k) c 1 k c 2 lg k, where c 1,c 2 > 0. Prove that the relation holds, and solve for c 1 and c 2. T 1 (n) =T 1 (αn) + T 1 ((1 α)n) + Θ(lg n) c 1 (αn) c 2 lg(αn) + c 1 ((1 α)n) c 2 lg((1 α)n) + Θ(lg n) July 14,

41 Analysis of Work Recurrence T 1 (n) = T 1 (αn) + T 1 ((1 α)n) + Θ(lg n), where 1/4 α 3/4. T 1 (n) =T 1 (αn) + T 1 ((1 α)n) + Θ(lg n) c 1 (αn) c 2 lg(αn) + c 1 (1 α)n c 2 lg((1 α)n) + Θ(lg n) July 14,

42 Analysis of Work Recurrence T 1 (n) = T 1 (αn) + T 1 ((1 α)n) + Θ(lg n), where 1/4 α 3/4. T 1 (n) =T 1 (αn) + T 1 ((1 α)n) + Θ(lg n) c 1 (αn) c 2 lg(αn) + c 1 (1 α)n c 2 lg((1 α)n) + Θ(lg n) c 1 n c 2 lg(αn) c 2 lg((1 α)n) + Θ(lg n) c 1 n c 2 ( lg(α(1 α)) + 2 lg n ) + Θ(lg n) c 1 n c 2 lg n (c 2 (lg n + lg(α(1 α))) Θ(lg n)) c 1 n c 2 lg n by choosing c 1 and c 2 large enough. July 14,

43 Parallelism of P_Merge Work: Span: T 1 (n)=θ(n) T (n)=θ(lg 2 n) Parallelism: T 1 (n) T (n) = Θ(n/lg 2 n) July 14,

44 Parallel Merge Sort cilk void P_MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn P_MergeSort(C, A, A, n/2); spawn P_MergeSort(C+n/2, A+n/2, n-n/2); spawn P_Merge(B, C, C, C+n/2, n/2, n-n/2); July 14,

45 Work of Parallel Merge Sort cilk void P_MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn P_MergeSort(C, A, A, n/2); spawn P_MergeSort(C+n/2, A+n/2, n-n/2); spawn P_Merge(B, C, C, C+n/2, n/2, n-n/2); Work: T 1 (n)=2 T 1 (n/2) + Θ(n) = Θ(n lg n) CASE 2 July 14,

46 Span of Parallel Merge Sort cilk void P_MergeSort(int *B, *B, int int *A, *A, int int n) n) { if if (n==1) { B[0] = A[0]; else { int int *C; *C; C = (int*) Cilk_alloca(n*sizeof(int)); spawn P_MergeSort(C, A, A, n/2); spawn P_MergeSort(C+n/2, A+n/2, n-n/2); spawn P_Merge(B, C, C, C+n/2, n/2, n-n/2); Span: T (n)= T?(n/2) + Θ(lg 2 n) = Θ(lg 3 n) CASE 2 n log b a = n log 2 1 = 1 f (n) = Θ(n log b a lg 2 n). July 14,

47 Parallelism of Merge Sort Work: Span: T 1 (n)=θ(n lg n) T (n)=θ(lg 3 n) Parallelism: T 1 (n) T (n) = Θ(n/lg 2 n) July 14,

48 LECTURE 2 Recurrences (Review) Matrix Multiplication Merge Sort Tableau Construction Conclusion July 14,

49 Tableau Construction Problem: Fill in an n n tableau A, where A[i, j] = f ( A[i, j 1], A[i 1, j], A[i 1, j 1]) Dynamic programming Longest common subsequence Edit distance Time warping Work: Θ(n 2 ). July 14,

50 Recursive Construction n Cilk code n II III II IV spawn I; spawn II; spawn III; spawn IV; July 14,

51 Recursive Construction n Cilk code n II III II IV spawn I; spawn II; spawn III; spawn IV; Work: T 1 (n) = 4T? 1 (n/2) + Θ(1) = Θ(n 2 ) CASE 1 July 14,

52 Recursive Construction n Cilk code n II III II IV spawn I; spawn II; spawn III; spawn IV; Span: T (n) = 3T? (n/2) + Θ(1) = Θ(n lg3 ) CASE 1 July 14,

53 Analysis of Tableau Construction Work: T 1 (n) = Θ(n 2 ) Span: T (n) = Θ(n lg3 ) Θ(n 1.58 ) Parallelism: T 1 (n) T (n) Θ(n 0.42 ) July 14,

54 A More-Parallel Construction n II III VI n spawn I; II VV VIII IV VII IX spawn II; spawn III; spawn IV; spawn V; spawn VI spawn VII; spawn VIII; spawn IX; July 14,

55 A More-Parallel Construction n II III VI n spawn I; II VV VIII IV VII IX spawn II; spawn III; spawn IV; spawn V; spawn VI spawn VII; spawn VIII; spawn IX; Work: T 1 (n) = 9T? 1 (n/3) + Θ(1) = Θ(n 2 ) CASE 1 July 14,

56 A More-Parallel Construction n II III VI n spawn I; II VV VIII IV VII IX spawn II; spawn III; spawn IV; spawn V; spawn VI spawn VII; spawn VIII; spawn IX; Span: T (n) =? 5T (n/3) + Θ(1) = Θ(n log 3 5 ) CASE 1 July 14,

57 Analysis of Revised Construction Work: T 1 (n) = Θ(n 2 ) Span: T (n) = Θ(n log 3 5 ) Θ(n 1.46 ) Parallelism: T 1 (n) T (n) Θ(n 0.54 ) More parallel by a factor of Θ(n 0.54 )/Θ(n 0.42 ) = Θ(n 0.12 ). July 14,

58 Puzzle What is is the largest parallelism that can be obtained for the tableauconstruction problem using Cilk? You may only use basic Cilk control constructs (spawn, sync) for synchronization. No locks, synchronizing through memory, etc. July 14,

59 LECTURE 2 Recurrences (Review) Matrix Multiplication Merge Sort Tableau Construction Conclusion July 14,

60 Key Ideas Cilk is simple: cilk, spawn, sync, SYNCHED Recurrences, recurrences, recurrences, Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span Work & span July 14,

61 Minicourse Outline LECTURE 1 Basic Cilk programming: Cilk keywords, performance measures, scheduling. LECTURE 2 Analysis of Cilk algorithms: matrix multiplication, sorting, tableau construction. LABORATORY Programming matrix multiplication in Cilk Dr. Bradley C. Kuszmaul LECTURE 3 Advanced Cilk programming: inlets, abort, speculation, data synchronization, & more. July 14,

Analysis of Multithreaded Algorithms

Analysis of Multithreaded Algorithms Marc Moreno Maza University of Western Ontario, London, Ontario (Canada) CS4402-9535 (Moreno Maza) Analysis of Multithreaded Algorithms CS4402-9535 1 / 27 Plan 1 Matrix