Explicitly Parallel Programming with Shared Memory is Insane: At Least Make it Deterministic!

Size: px

Start display at page:

Download "Explicitly Parallel Programming with Shared Memory is Insane: At Least Make it Deterministic!"

Basil Spencer
6 years ago
Views:

2 Explicitly Parallel Programming with Shared Memory is Insane: At Least Make it Deterministic! Joe Devietti, Brandon Lucia, Luis Ceze and Mark Oskin University of Washington

3 Parallel Programming is Hard Race conditions make life difficult barrier_wait(); x = 1; barrier_wait(); x = ; return x; 100% 17% 3% 0% 0% 100% Deterministic parallel execution would be nice! Deterministic Multiprocessors Joe Devietti SHCMP 00 3

4 Wouldn't it be nice if......execution were reproducible on a machine? No more heisenbugs! Run parallel programs forwards and backwards...execution were reproducible across machines? Reduces the parallel testing coverage problem to the single threaded testing coverage problem Can reproduce bugs found in the field Increases robustness of deployed parallel code Deterministic Multiprocessors Joe Devietti SHCMP 00 4

5 Related Work Deterministic, implicitly parallel languages StreamIt [ASPLOS 00], Jade [TOPLAS 199] Typically domain specific Record+replay RecPlay [TOCS 1999], FDR [ISCA 003], Rerun [ISCA 00], DeLorean [ISCA 00] Log ordering of memory operations Serialize execution (Simics [Computer 00]) Deterministic Multiprocessors Joe Devietti SHCMP 00 5

Input is value and timing of I/O and OS events DMP provides deterministic

6 DMP: A Deterministic Multiprocessor Determinism: same input yields same output What is input? Input is value and timing of I/O and OS events DMP provides deterministic interleaving of memory operations Serialize execution in a consistent, but arbitrary way Deterministic Multiprocessors Joe Devietti SHCMP 00 6

7 Valid Non deterministic Executions lock, scheduling decision, race condition,... = DMP picks the Each root leaf path same valid execution is a valid execution every time DMP serializes execution in a consistent way Deterministic Multiprocessors Joe Devietti SHCMP 00 7

8 Serialized Execution DT store P store P 6 steps load A load A store P' Deterministic Token gets passed after every insn store P' Deterministic Multiprocessors Joe Devietti SHCMP 00

9 Serialized Execution DT store P load A store P' store Passing A token after every insn is expensive store Pass token P after each n insn quantum instead 6 steps load A One of many possible serializations store P' Deterministic Multiprocessors Joe Devietti SHCMP 00 9

10 Serialized Execution: Flow of Data store P load A DMP enforces the same serialization across program runs A particular serialization enforces a particular flow of data store P' Deterministic Multiprocessors Joe Devietti SHCMP 00 10

11 DMP Interface and Implementation Interface: deterministically serialized execution Preserves program behavior across runs Naïve implementation: Execute insns in round robin order nx slowdown on n threads : ( Better implementation: OoO superscalar Serialize only when necessary Serialize only for as long as necessary Deterministic Multiprocessors Joe Devietti SHCMP 00 11

12 Recovering Parallelism Parallelize thread private accesses Sharing Table Speculatively parallelize execution Transactional Memory (TM) TM + Speculative Value Forwarding TM Forward Smarter Quantum Building Deterministic Multiprocessors Joe Devietti SHCMP 00 1

13 DMP Sharing Table: Exploiting Thread private Data store P load A store P' Thread private accesses can't affect other threads Okay to execute private accesses in parallel Sharing Table: locations are Shared or Private Shared = S state, Private = M/E state Need to hold DT to update sharing table Deterministic Multiprocessors Joe Devietti SHCMP 00 13

14 DMP TM: Leveraging Speculation store P load A store P' Execute quanta as implicit transactions Quanta execute speculatively in parallel Abort+retry if serialization was violated Commit quanta in order (need DT to commit) Deterministic Multiprocessors Joe Devietti SHCMP 00 14

15 DT store P DMP TM Execution store P' load A load A 66 steps store P' Deterministic Multiprocessors Joe Devietti SHCMP 00 15

16 DMP TM Execution store P load A DT load A store P' Ordering+isolation = memory renaming WAW/WAR are false conflicts 4 6 steps Deterministic Multiprocessors Joe Devietti SHCMP 00 16

17 DMP TM Forward: Speculative Value Forwarding store P load A store P' Speculatively forward values to future quanta Can potentially avoid squashes even with true (RAW) data dependences Must squash yourself if data you were forwarded is overwritten by past quantum When you squash, must squash all your consumers Deterministic Multiprocessors Joe Devietti SHCMP 00 17

18 TM Forward Execution DT store P load A store P' 4 6 steps Same serial flow of data, but highly parallel execution! Deterministic Multiprocessors Joe Devietti SHCMP 00 1

19 Recovering Parallelism Sharing Table Parallelizes accesses to thread private data Non speculative TM and TM Forward Speculation allows for more parallelism memory renaming means fewer squashes Smarter Quantum Building Deterministic Multiprocessors Joe Devietti SHCMP 00 19

20 Quantum Building Building quanta by just counting dynamic insns is simple, but can be slow lock L unlock L... lock L unlock L... Deterministic Multiprocessors Joe Devietti SHCMP 00 0

21 Naïve Quantum Building: Convoying lock L unlock L... DT lock L lock L lock L Deterministic Multiprocessors Joe Devietti SHCMP 00 1

22 Smarter Quantum Building Enclose critical sections in a single quantum! Start new quantum after an unlock Other quantum building strategies in paper lock L unlock L... lock L unlock L... Deterministic Multiprocessors Joe Devietti SHCMP 00

23 Experimental Methodology Simulator using PIN Functionally models effects of serialization Models address conflicts, limited TM buffering Assume 1 IPC, free commits SPLASH benchmark suite Deterministic Multiprocessors Joe Devietti SHCMP 00 3

24 Runtime Overhead runtime normalized to non-deterministic parallel execution fft 4 lu-c TM-Forward TM SharingTable Serial 4 lu-nc 4 ocean-c 4 ocean-nc 4 radix 4 volrend 4 water-ns benchmark Deterministic Multiprocessors Joe Devietti SHCMP 00 4

25 Runtime Overhead runtime normalized to non-deterministic parallel execution fft 4 lu-c TM-Forward TM SharingTable Serial 4 lu-nc 4 ocean-c 4 ocean-nc 4 radix 4 volrend 4 water-ns benchmark Deterministic Multiprocessors Joe Devietti SHCMP 00 5

26 Runtime Overhead runtime normalized to non-deterministic parallel execution fft 4 lu-c TM-Forward TM SharingTable Serial 4 lu-nc 4 ocean-c 4 ocean-nc 4 radix 4 volrend 4 water-ns benchmark Deterministic Multiprocessors Joe Devietti SHCMP 00 6

27 Runtime Overhead runtime normalized to non-deterministic parallel execution fft 4 lu-c TM-Forward TM SharingTable Serial 4 lu-nc 4 ocean-c 4 ocean-nc 4 radix 4 volrend 4 water-ns benchmark Deterministic Multiprocessors Joe Devietti SHCMP 00 7

28 Non deterministic events environmental factors DMP memory interleavings I/O OS events Network I/O File I/O Thread Scheduling IPC Deterministic Multiprocessors Joe Devietti SHCMP 00

29 Conclusions Determinism is a Good Thing Simplifies debugging, testing and (potentially) deployment of parallel programs We want sequential behavior with parallel performance We show several ways to build efficient DMPs No memory log Competitive performance Deterministic Multiprocessors Joe Devietti SHCMP 00 9

30 Questions? Deterministic Multiprocessors Joe Devietti SHCMP 00 30

DMP Deterministic Shared Memory Multiprocessing

DMP Deterministic Shared Memory Multiprocessing University of Washington Joe Devietti, Brandon Lucia, Luis Ceze, Mark Oskin A multithreaded voting machine 2 thread 0 thread 1 while (more_votes) { load