SuperMatrix on Heterogeneous Platforms. Jianyu Huang SHPC, UT Austin

Size: px

Start display at page:

Download "SuperMatrix on Heterogeneous Platforms. Jianyu Huang SHPC, UT Austin"

Arthur Morton
5 years ago
Views:

1 SuperMatrix on Heterogeneous Platforms Jianyu Huang SHPC, U Austin 1

2 How Heterogeneous? 2

3 How Many Languages? 3

4 How Many Languages? 3

5 Question! 4

6 FLAME Answer: SuperMatrix libflame SuperMatrix clblas OpenCL cublas CUDA GPU ACML OpenMP /pthread C/asse mbly/f ortran MKL OpenMP/ pthread C/For tran/ Asse mbly BLIS OpenMP/pt hread C/Asse mbly CPU/MIC BLIS OpenMP/pt hread C/Asse mbly Accelerator/Other platforms 5

FLAME Answer: SuperMatrix libflame SuperMatrix clblas OpenCL cublas CUDA GPU ACML OpenMP /pthread C/asse mbly/f ortran MKL OpenMP/ pthread C/For tran/ Asse mbly BLIS OpenMP/pt

7 FLAME Answer: SuperMatrix libflame SuperMatrix clblas OpenCL cublas CUDA GPU ACML OpenMP /pthread C/asse mbly/f ortran MKL OpenMP/ pthread C/For tran/ Asse mbly BLIS OpenMP/pt hread C/Asse mbly CPU/MIC BLIS OpenMP/pt hread C/Asse mbly Accelerator/Other platforms Programmability Parallelism Use tools provide by Directed acyclic graph FLAME 5 (DAG) scheduling

8 FLAME Answer: SuperMatrix Chan, E., Quintana-Ortí, E. S., Quintana-Ortí, G., and van de Geijn, R.. SuperMatrix out-of-order scheduling of matrix operations for SMP and multi-core architectures. In SPAA'07: Proceedings of the Nineteenth Annual ACM Symposium on Parallelism in Algorithms and Architectures, pages , San Diego, CA, USA, June 9-11, Chan, E., G. Van Zee, F., Quintana-Ortí, E. S., Quintana-Ortí, G., and van de Geijn, R.. Satisfying your dependencies with SuperMatrix. InCluster'07: Proceedings of the 2007 IEEE International Conference on Cluster Computing, pages 91-99, Austin,, USA, September 17-20, Chan, E., G. Van Zee, F., Bientinesi, P., Quintana-Ortí, E. S., Quintana-Ortí, G., and van de Geijn, R.. SuperMatrix: A multithreaded runtime scheduling system for algorithms-by-blocks. In PPoPP'08: Proceedings of the hirteenth ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pages , Salt Lake City, U, USA, February 20-23, Quintana-Orti, G., Igual, F. D., Quintana-Orti, E. S., van de Geijn, R.. Solving dense linear systems on platforms with multiple hardware accelerators. In PPoPP '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009 Quintana-Ortí, G., Quintana-Ortí, E.S., van de Geijn, R., G. Van Zee, F., and Chan, E.. Programming matrix algorithms-by-blocks for thread-level parallelism. ACM ransactions on Mathematical Software, 36(3):14:1-14:26, July Chan, E.. Application of Dependence Analysis and Runtime Data Flow Graph Scheduling to Matrix Computations. Ph.D. dissertation, Department of Computer Science, he University of exas at Austin Quintana-Ortí, G., Igual, F. D., Marqués, M., Quintana-Ortí, E. S., and van de Geijn, R.. "A Runtime System for Programming Out-of-Core Matrix Algorithms-by-iles on Multithreaded Architectures." ACM ransactions on Mathematical Software (OMS) 38, no. 4 (2012): 25. 6

9 Parallel? S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * Can the code be parallelized? 7

10 Parallel? S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * Can the code be parallelized? Write After Read: (S0, S1) Read After Write: (S0, S1) Read After Write: (S1, S2) Read After Write: (S2, S3) Read After Write: (S1, S4) 7

11 Parallel? S0: D A*B Write After Read: (S0, S1) Read After Write: (S0, S1) S1: A L * L Read After Write: (S1, S2) S2: B B * L - Read After Write: (S2, S3) S3: C C B * B Read After Write: (S1, S4) S4: L -1 * Can the code be parallelized? Are you sure S1 and S2 cannot be parallelized? 7

12 Parallel? S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B D A B A B L B C C B B L S4: L -1 * L B How to parallelize? 8

13 raditional Library Approach S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * How to parallelize? 9

14 raditional Library Approach S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * S0: ParGemm (A,B,D) S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) S4: Parrsm(L,) How to parallelize? 9

15 raditional Library Approach Implemented with libflame and BLIS S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * /* */ FLA_Gemm( FLA_NO_RANSPOSE,FLA_NO_RANSPOSE, FLA_ONE, A, B, FLA_ZERO, D ); FLA_Chol( FLA_LOWER_RIANGULAR, A ); FLA_rsm( FLA_RIGH, FLA_LOWER_RIANGULAR, FLA_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, A, B ); FLA_Syrk( FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_MINUS_ONE, B, FLA_ONE, C ); FLA_rsm( FLA_LEF, FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, L, ); /* */ Supported by parallel BLAS, LAPACK (multi-thread BLIS) 10

16 Problem for Fine-grained Parallelism libflame Fine-grained parallelism BLIS pthreads OpenMP 11

17 Problem for Fine-grained Parallelism Synchronization point overhead Not fit for multiple devices scenarios. libflame Fine-grained parallelism BLIS pthreads OpenMP 11

18 Problem for Fine-grained Parallelism Synchronization point overhead Not fit for multiple devices scenarios. libflame Coarse-grained parallelism libflame Fine-grained parallelism BLIS pthreads OpenMP pthreads OpenMP BLIS BLIS Introduce parallelism across instructions Fit for the platform with multiple computation 11 units.

19 Problem for Fine-grained Parallelism Synchronization point overhead Not fit for multiple devices scenarios. libflame Coarse-grained parallelism libflame Fine-grained parallelism BLIS pthreads OpenMP pthreads OpenMP BLIS BLIS Introduce parallelism across instructions Fit for the platform with multiple computation 11 units.

20 Problem for Fine-grained Parallelism Synchronization point overhead Not fit for multiple devices scenarios. libflame Coarse-grained parallelism libflame Fine-grained parallelism BLIS pthreads OpenMP pthreads OpenMP BLIS BLIS Introduce parallelism across instructions Fit for the platform with multiple computation 11 units.

21 Coarse-grained Parallelism Coarse-grained parallelism libflame libflame Fine-grained parallelism BLIS SuperMatrix pthreads OpenMP BLIS BLIS Introduce parallelism across instructions Fit for the platform with multiple computation 12 units.

22 SuperMatrix Approach S0: D A*B D A B S1: A L * L A L S2: B B * L - B B L S3: C C B * B C C B B S4: L -1 * L B How to parallelize? 13

23 S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * SuperMatrix Approach How to parallelize? 14

24 S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * SuperMatrix Approach How to parallelize? Partitioning/Algorithm-by-blocks! 15

25 S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * SuperMatrix Approach How to parallelize? 16

26 SuperMatrix Approach Construct the DAG across the instructions automatically No need to annotate the task dependencies manually! 17

27 raditional Library Approach Implemented with libflame and BLIS S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * /* */ FLA_Gemm( FLA_NO_RANSPOSE,FLA_NO_RANSPOSE, FLA_ONE, A, B, FLA_ZERO, D ); FLA_Chol( FLA_LOWER_RIANGULAR, A ); FLA_rsm( FLA_RIGH, FLA_LOWER_RIANGULAR, FLA_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, A, B ); FLA_Syrk( FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_MINUS_ONE, B, FLA_ONE, C ); FLA_rsm( FLA_LEF, FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, L, ); /* */ Supported by parallel BLAS, LAPACK (multi-thread BLIS) 18

28 SuperMatrix Approach Implemented with libflame and BLIS S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * /* */ FLASH_Gemm( FLA_NO_RANSPOSE,FLA_NO_RANSPOSE, FLA_ONE, A, B, FLA_ZERO, D ); FLASH_Chol( FLA_LOWER_RIANGULAR, A ); FLASH_rsm( FLA_RIGH, FLA_LOWER_RIANGULAR, FLA_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, A, B ); FLASH_Syrk( FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_MINUS_ONE, B, FLA_ONE, C ); FLASH_rsm( FLA_LEF, FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, L, ); /* */ 19

29 Free Lunch for Both Programmability and Performance! From libflame manual,

30 Original SuperMatrix primarily targets at multi-core shared memory system 21

31 22

32 HPC Heterogeneous Platforms Matrix 22

33 HPC Heterogeneous Platforms Matrix PCIE 22

34 Challenges in Heterogeneous Platforms! S0: D A*A S0: ParGemm (A,A,D) S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) S4: Parrsm(L,) What if there is one accelerator in your system? 23

35 Challenges in Heterogeneous Platforms! S0: D A*A S0: ParGemm (A,A,D) S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) S4: Parrsm(L,) What if there is one accelerator in your system? 23

36 Challenges in Heterogeneous Platforms! S0: ParGemm (A,A,D) S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) S4: Parrsm(L,) What if there is one accelerator in your system? 23

37 Challenges in Heterogeneous Platforms! /* */ Memcpy(A, ha); Memcpy(D, hd); Memcpy(B, hb); Memcpy(C, hc); Memcpy(, h); /* */ S0: ParGemm (A,A,D) S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) /* */ Memcpy(h, ); /* */ S4: Parrsm(L,) What if there is one accelerator in your system? 24

38 Challenges in Heterogeneous Platforms! /* */ Memcpy(A, ha); Memcpy(D, hd); Memcpy(B, hb); Memcpy(C, hc); Memcpy(, h); /* */ S0: ParGemm (A,A,D) S1: L = ParPortf(A) S2: Parrsm(L,B) S3: ParSyrk(B,C) /* */ Memcpy(h, ); /* */ S4: Parrsm(L,) What if there are 4 GPUs and 8 CPU cores in your system? 24

39 Adapting Original SuperMatrix to Heterogeneous Platforms Software Cache Heterogeneous Scheduler Asynchronous Memory Copy Worker ask Performance Model 25

40 Naïve Approach PCIE 26

41 C A B Naïve Approach PCIE 26

42 Naïve Approach ransfer data from host to device before execution C A B PCIE 26

43 Naïve Approach ransfer data from host to device before execution C A B PCIE Execute the task on the device 26

44 Naïve Approach ransfer data from host to device before execution A B PCIE Execute the task on the device C 26

45 Naïve Approach ransfer data from host to device before execution A B PCIE Execute the task on the device C ransfer data from device to host upon execution 26

46 Naïve Approach ransfer data from host to device before execution A B PCIE Execute the task on the device C ransfer data from device to host upon execution No Data Reuse on the devices! 26

47 Software Cache PCIE Quintana-Ortí, G., et al. "Solving dense linear systems on platforms with multiple hardware accelerators." In PPoPP 27 '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009

48 Software Cache PCIE Quintana-Ortí, G., et al. "Solving dense linear systems on platforms with multiple hardware accelerators." In PPoPP 27 '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009

49 C A B Software Cache PCIE Quintana-Ortí, G., et al. "Solving dense linear systems on platforms with multiple hardware accelerators." In PPoPP 27 '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009

50 C Software Cache No need to transfer data from host to device before execution if the data is already on the device PCIE Quintana-Ortí, G., et al. "Solving dense linear systems on platforms with multiple hardware accelerators." In PPoPP 27 '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009

51 Software Cache No need to transfer data from host to device before execution if the data is already on the device PCIE No need to transfer data from device to host upon execution if the data is not required by the host immediately Quintana-Ortí, G., et al. "Solving dense linear systems on platforms with multiple hardware accelerators." In PPoPP 27 '09 Proceedings of the 14th ACM SIGPLAN symposium on Principles and Practice of Parallel Programming, 2009

52 HEF(Heterogeneous Earliest Finish ime) imeline ask 1 Where should we place ask 6? ask 6 ask 2 ask 3 ask 4 ask 5 opcuoglu, H., Hariri, S., and Wu, M.. "Performance-effective and low-complexity task scheduling for heterogeneous computing." IEEE ransactions on Parallel and Distributed Systems, 13.3 (2002):

53 HEF(Heterogeneous Earliest Finish ime) imeline ask 1 Where should we place ask 6? ask 6 ask 2 ask 3 ask 4 ask 5 opcuoglu, H., Hariri, S., and Wu, M.. "Performance-effective and low-complexity task scheduling for heterogeneous computing." IEEE ransactions on Parallel and Distributed Systems, 13.3 (2002):

HEF(Heterogeneous Earliest Finish ime) imeline 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ask 1 ask 6 ask 2 ask 3 ask 4 ask 5 ask 6 opcuoglu, H., Hariri, S., and Wu, M.

54 HEF(Heterogeneous Earliest Finish ime) imeline ask 1 ask 6 ask 2 ask 3 ask 4 ask 5 ask 6 opcuoglu, H., Hariri, S., and Wu, M.. "Performance-effective and low-complexity task scheduling for heterogeneous computing." IEEE ransactions on Parallel and Distributed Systems, 13.3 (2002):

55 3x3 Blocked Cholesky Decomposition CHOL 0 A 0,0 Chol( A 0,0 ) RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 CHOL 6 A 1,1 Chol( A 1,1 ) RSM 7 A 2,1 A 2,1 A 1,1 - SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL 9 A 2,2 Chol( A 2,2 ) 55

56 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority 30

57 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

58 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 SYRK3 RSM 7 A 2,1 A 2,1 A 1,1 - GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

Data Distribution CPU GPU0 GPU1 A00 1 1 1 CHOL 0 A 0,0 Chol( A 0,0 ) A10 0 1 0 A11 1 0 0 A20 0 0 1 RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A21 1 0 0 A22 1 0 0 SYRK 3 A 1,1 A 1,1 A 1,0 A

59 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

60 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

61 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

62 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

Data Distribution CPU GPU0 GPU1 A00 1 1 1 CHOL 0 A 0,0 Chol( A 0,0 ) A10 0 1 0 A11 1 0 0 A20 1 1 1 RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0

CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A

63 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

64 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

65 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

66 Data Distribution CPU GPU0 GPU1 A CHOL 0 A 0,0 Chol( A 0,0 ) A A A RSM 1 A 1,0 A 1,0 A 0,0 - RSM 2 A 2,0 A 2,0 A 0,0 - A A SYRK 3 A 1,1 A 1,1 A 1,0 A 1,0 GEMM 4 A 2,1 A 2,1 A 2,0 A 1,0 SYRK 5 A 2,2 A 2,2 A 2,0 A 2,0 Scheduler CPU GPU0 GPU1 CHOL 6 A 1,1 Chol( A 1,1 ) CHOL0 RSM1 RSM2 RSM 7 A 2,1 A 2,1 A 1,1 - SYRK3 GEMM4 SYRK5 HEF assignment table SYRK 8 A 2,2 A 2,2 A 2,1 A 2,1 CHOL6 RSM7 CPU GPU0 GPU1 Avail CHOL 9 A 2,2 Chol( A 2,2 ) SYRK8 ES CHOL9 EF Priority

67 S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * SuperMatrix Approach on Heterogeneous Platforms /* */ FLASH_Gemm( FLA_NO_RANSPOSE,FLA_NO_RANSPOSE, FLA_ONE, A, B, FLA_ZERO, D ); FLASH_Chol( FLA_LOWER_RIANGULAR, A ); FLASH_rsm( FLA_RIGH, FLA_LOWER_RIANGULAR, FLA_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, A, B ); FLASH_Syrk( FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_MINUS_ONE, B, FLA_ONE, C ); FLASH_rsm( FLA_LEF, FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, L, ); /* */ 41

68 Performance 6-core single-socket eon E5649 CPU + 1 G 480 GPU card BLOCK SIZE: core single-socket eon E5649 CPU + 2 esla C2070 GPU card BLOCK SIZE:

69 Conclusion libflame SuperMatrix clblas OpenCL cublas CUDA GPU ACML OpenMP /pthread C/asse mbly/f ortran MKL OpenMP/ pthread C/For tran/ Asse mbly BLIS OpenMP/pt hread C/Asse mbly CPU/MIC BLIS OpenMP/pt hread C/Asse mbly Accelerator/Other platforms 43

70 S0: D A*B S1: A L * L S2: B B * L - S3: C C B * B S4: L -1 * SuperMatrix Approach on Heterogeneous Platforms /* */ FLASH_Gemm( FLA_NO_RANSPOSE,FLA_NO_RANSPOSE, FLA_ONE, A, B, FLA_ZERO, D ); FLASH_Chol( FLA_LOWER_RIANGULAR, A ); FLASH_rsm( FLA_RIGH, FLA_LOWER_RIANGULAR, FLA_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, A, B ); FLASH_Syrk( FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_MINUS_ONE, B, FLA_ONE, C ); FLASH_rsm( FLA_LEF, FLA_LOWER_RIANGULAR, FLA_NO_RANSPOSE, FLA_NONUNI_DIAG, FLA_ONE, L, ); /* */ 44

71 Related Work arget Platform Lapack Project FLAME Project Sequential LAPACK libflame Sequential+multithreaded BLAS LAPACK libflame Multicore/multithreaded PLASMA libflame+supermatrix Multicore+out-of-order scheduling PLASMA+Quark libflame+supermatrix CPU + single GPU MAGMA libflame+supermatrix Multicore + multi-gpu DAGuE/StarPU/ Kaapi libflame+supermatrix 45

72 Related Work arget Platform Lapack Project FLAME Project Sequential LAPACK libflame Sequential+multithreaded BLAS LAPACK libflame Multicore/multithreaded PLASMA libflame+supermatrix Multicore+out-of-order scheduling PLASMA+Quark libflame+supermatrix CPU + single GPU MAGMA libflame+supermatrix Multicore + multi-gpu DAGuE/StarPU/ Kaapi libflame+supermatrix 45

73 Questions? 46

Solving Dense Linear Systems on Platforms with Multiple Hardware Accelerators

Solving Dense Linear Systems on Platforms with Multiple Hardware Accelerators Francisco D. Igual Enrique S. Quintana-Ortí Gregorio Quintana-Ortí Universidad Jaime I de Castellón (Spain) Robert A. van de