MERGE-BASED SpMV PERFECT WORKLOAD BALANCE. GUARANTEED. Duane Merrill, NVIDIA Research

Size: px

Start display at page:

Download "MERGE-BASED SpMV PERFECT WORKLOAD BALANCE. GUARANTEED. Duane Merrill, NVIDIA Research"

Donald Gibbs
6 years ago
Views:

1 MERGE-BASED SpMV PERFECT WORKLOAD BALANCE. GUARANTEED. Dun Mrrill, NVIDIA Rsr

2 SPARSE MATRIX-VECTOR MULTIPLICATION SpMV (Ax = y) * = sprs mtrix A ns vtor x ns vtor y 2

3 SPARSE MATRIX-VECTOR MULTIPLICATION Lots o vill prlllism * = ()() + ()() 0.0 ()() + ()() ()() + ()() + ()() +()() sprs mtrix A ns vtor x ns vtor y 3

4 PARALLEL DECOMPOSITION 4

5 COMPRESSED SPARSE ROW (CSR) FORMAT 3-rry rprsnttion vlus olumn inis A row osts

6 CSR PARALLEL DECOMPOSITION ) Row-s vlus olumn inis A row osts p 0 p 1 p 2 p

7 CSR PARALLEL DECOMPOSITION ) Row-s p 0 p 1 p 2 p 3 imln! vlus olumn inis A row osts p 0 p 1 p 2 p

8 CSR PARALLEL DECOMPOSITION ) Nonzro splittin p 0 p 1 p 2 p vlus olumn inis A row osts

9 CSR PARALLEL DECOMPOSITION ) Nonzro splittin p 0 p 1 p 2 p A vlus olumn inis row osts p 0 p 1 p 2 p imln! 9

10 CSR PARALLEL DECOMPOSITION ) Mr-s (loil) p 0 p 1 p vlus row osts olumn inis A 10

11 PERFORMANCE CONSISTENCY Consistny is r ttr tn rr momnts o rtnss -Sott Ginsr 11

12 Exmpls srmv() wit ~35M non-zros (K40, p64) trmom_k (tmprtur ormtion) nr-2000 (W onntivity) ASIC_320k (iruit simultion) usparse (row-s, vtoriz prlll omposition): 12.4 GFLOPS 5.9 GFLOPS 0.12 GFLOPS 12

13 Exmpls srmv() wit ~35M non-zros (K40, p64) trmom_k (tmprtur ormtion) nr-2000 (W onntivity) ASIC_320k (iruit simultion) usparse (row-s, vtoriz prlll omposition): Mr-s: 12.4 GFLOPS 5.9 GFLOPS 0.12 GFLOPS 15.5 GFLOPS 16.7 GFLOPS 14.1 GFLOPS 13

rtits: Contntion Worklo imln Exrt on mssivly prlll

14 PERFORMANCE (IN)CONSISTENCY Prllliztion souln t introu rtits in t prormn lnsp Sours o t-pnnt prormn rtits: Contntion Worklo imln Exrt on mssivly prlll GPUs >60 spiliz GPU-spii SpMV loritms n sprs mtrix ormts! 14

15 Runtim (ms) Runtim (ms) SPMV PERFORMANCE LANDSCAPE T ntir Flori Sprs Mtrix Colltion: 4.2K tsts (K40, p64 CsrMV) Mtris y siz usparse Mtris y siz Mr-s 15

16 Runtim (ms) Runtim (ms) SPMV PERFORMANCE LANDSCAPE T ntir Flori Sprs Mtrix Colltion: 4.2K tsts (K40, p64 CsrMV) Hily orrlt wit prolm siz! Mtris y siz usparse Mtris y siz Mr-s 16

17 2D MERGE PATH DECOMPOSITION Nrsin Do, Amit Jin, n Murlir Mii An optiml prlll loritm or mrin usin multisltion. In. Pross. Ltt. 50, 2 (April 1994), O, S. t l Mr Pt - Prlll Mrin M Simpl. Proins o t 2012 IEEE 26t Intrntionl Prlll n Distriut Prossin Symposium Worksops & PD Forum (Wsinton, DC, USA, 2012),

18 T 2D mr-pt visuliztion T ision pt runs rom top-lt to ottom-rit: Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A strt i n 18

19 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 19

20 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 20

21 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 21

22 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 22

23 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 23

24 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 24

25 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 25

26 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 26

27 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 27

28 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 28

29 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A n 29

30 T 2D mr-pt visuliztion i T ision pt runs rom top-lt to ottom-rit: strt Movs rit wn onsumin rom list A Movs own wn onsumin rom list B E stp prous n output Brk tis y lwys prrrin t lmnt rom list A i n 30

31 Prtitionin t mr pt i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 p 1 p 2 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points 31

32 Prtitionin t mr pt i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 p 1 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points p 2 32

33 Prtitionin t mr pt p 0 i p 1 p 2 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points 33

34 Prtitionin t mr pt p 0 i p 1 p 2 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points 34

35 Prtitionin t mr pt i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 p 1 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j p 2 3. Trs run t sril mr loritm rom tir strtin points 35

36 Prtitionin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 p 1 p 2 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points Work is prtly lo-ln! 36

37 Consumin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 p 1 p 2 2. Trs sr lon ionls or 2D strtin oorints I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points 37

38 Consumin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 2. Trs sr lon ionls or 2D strtin oorints p 1 I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points p 2 Work is prtly lo-ln! 38

39 Consumin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 2. Trs sr lon ionls or 2D strtin oorints p 1 I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points p 2 Work is prtly lo-ln! 39

40 Consumin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 2. Trs sr lon ionls or 2D strtin oorints p 1 I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points p 2 Work is prtly lo-ln! 40

41 Consumin t mr pt p 0 p 1 p 2 i 1. Prtition t ri into P qully-siz ionl rions (on tr pr rion) p 0 2. Trs sr lon ionls or 2D strtin oorints p 1 I.., Fin t irst (i,j) wr X i is rtr tn ll o t itms onsum or Y j 3. Trs run t sril mr loritm rom tir strtin points p 2 Work is prtly lo-ln! i 41

42 MERGE-BASED CsrMV 42

43 vlu inis (N) nonzro ot-prout omponnts MERGE-BASED CsrMV * 1. Loilly mr CSR row-osts vs. N (t nonzro inis) row osts Prtition t pt into P rions 0 3. Pt prossin: Aumult vlus wn movin own Flus n rst umultor wn rit 4 4. Fixup or prtil-sums rom rows tt ross prtitions

44 Vlu inis (N) Ax nonzro ot-prout omponnts MERGE-BASED CsrMV * 1. Loilly mr row-osts vs. N (t nonzro inis) Row osts Prtition t pt into P rions 0 3. Pt prossin: Aumult vlus wn movin own Flus n rst umultor wn rit p 0 p Fixup or prtil-sums rom rows tt ross prtitions p

45 Ax nonzro ot-prout omponnts MERGE-BASED CsrMV * p 0 p 1 p 2 1. Loilly mr row-osts vs. N (t nonzro inis) Prtition t pt into P rions p 0 p 0 3. Pt prossin: Aumult vlus wn movin own p p 1 Flus n rst umultor wn rit 4. Fixup or prtil-sums rom rows tt ross prtitions p p

46 Vlu inis (N) Ax nonzro ot-prout omponnts MERGE-BASED CsrMV * 1. Loilly mr row-osts vs. N (t nonzro inis) Row osts Prtition t pt into P rions Pt prossin: Aumult nonzro vlus wn movin own Flus n rst umultor wn rit Fixup or prtil-sums rom rows tt ross prtitions

Vlu inis (N) Ax nonzro ot-prout omponnts MERGE-BASED CsrMV -- -- -- -- -- -- -- -- * 1. Loilly mr row-osts vs. N (t nonzro inis) Row osts 0 2 2 4 8 2.

47 Vlu inis (N) Ax nonzro ot-prout omponnts MERGE-BASED CsrMV * 1. Loilly mr row-osts vs. N (t nonzro inis) Row osts Prtition t pt into P rions Pt prossin: Aumult vlus wn movin own Flus n rst umultor wn rit Fixup or prtil-sums rom rows tt ross prtitions

48 Runnin tim (ms) SPMV PERFORMANCE LANDSCAPE T ntir Flori Sprs Mtrix Colltion: 4.2K tsts (K40, p64 CsrMV) usparse Mr-s Mu ir orrltion o runtim to prolm siz (0.79 vrsus 0.31) Mu lowr orrltion o FLOPS to row-lnt vrition (-0.02 vrsus -0.24) Mu lowr orrltion o FLOPS to row-lnt skw (-0.07 vrsus -0.23) Mtris y siz 48

49 QUESTIONS? Mrrill, D. n Grln, M Mr-s Prlll Sprs Mtrix-Vtor Multiplition usin t CSR Stor Formt. T. Rp. NVR , NVIDIA Corp. Furtr tnks n pprition or support rom DARPA PERFECT, Sn Bxtr, Mil Grln 49

Overview Linear Algebra Review Linear Algebra Review. What is a Matrix? Additional Resources. Basic Operations.

Overview Linear Algebra Review Linear Algebra Review. What is a Matrix? Additional Resources. Basic Operations. Oriw Ro Jnow Mon, Sptmr 2, 24 si mtri oprtions (, -, *) Cross n ot prouts Dtrminnts n inrss Homonous oorints Ortonorml sis itionl Rsours 8.6 Tt ook 6.837 Tt ook 6.837-stff@rpis.sil.mit.u Ck t ours wsit