Scalability of Trace Analysis Tools. Jesus Labarta Barcelona Supercomputing Center

Size: px

Start display at page:

Download "Scalability of Trace Analysis Tools. Jesus Labarta Barcelona Supercomputing Center"

Gerald Armstrong
5 years ago
Views:

1 Scalability of Trace Analysis Tools Jesus Labarta Barcelona Supercomputing Center

2 What is Scalability? Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

3 Index General view Scalability of instrumentation and preprocessing Scalability of display Dynamic range Analysis methodology Interoperability Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

4 Scalability Amount of data vs information Dynamic range??? 10 6 Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

------------------------------------------------------------------------- [index]

500 97.4% 97.4% 4.500 97.4% 150 bmod (LUBb: LUBb.f, 122) [5] 0.060 1.

f, 85) [1] 0.000 0.0% 100.0% 4.620 100.0% 154 start (LUBb: crt1text.s, 103) [2] 0.

f, 1) Processors/processes Event types Time Timeline land Instrumentation land f ( t,

5 Performance analysis universe Acquisition Presentation Profile land Sampling land b a f ( t) dt Function list, in descending order by exclusive time [index] excl.secs excl.% cum.% incl.secs incl.% samples procedure (dso: file, line) [4] % 97.4% % 150 bmod (LUBb: LUBb.f, 122) [5] % 98.7% % 2 genmat (LUBb: prepost.f, 1) [6] % 100.0% % 2 bdiv (LUBb: LUBb.f, 85) [1] % 100.0% % 154 start (LUBb: crt1text.s, 103) [2] % 100.0% % 154 main (libftn.so: main.c, 76) [3] % 100.0% % 154 LUBb (LUBb: LUBb.f, 1) Processors/processes Event types Time Timeline land Instrumentation land f ( t, p) Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

6 Scalability Mechanisms Separation of engine and display Distributed implementation Data encoding Subset selection Non linear rendering Software counters Algorithms Techniques to process the raw data Signal processing, clustering, Metrics Computation vs. MPI Reported information Counts vs models MPI _ call _ Cost = MPI _ call _ duration # bytes # cycles # instr / idealipc L2 _ miss _ latency = # L2misses Emphasis Importance Physics Model Observations Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

7 CEPBA-tools towards scalability Selection On-Off (time, processors, space) external control file events/information emitted (ie. MPI, HWC) Limit buffer sizes / duration Structure detection (i.e. periodicity) Circular buffer (issues: matching, density) min. duration states software counters (MPI_Probe,#MPIs, size) Parallel merge Software counters count original events accumulate values (hwc) when: pediodic, condition Subset selection time, processors trace size limit states/comms/events Manual filters/gui Automatic 10GB Same ideas applicable at instrumentation, postprocessing & analysis 100MB f ( t ) dt Functionality Non linear Composition Aggregation Display Non linear render what & color Generic subset of objects Performance Trace loading Metric comp. (intervals) OpenMP, Distributed Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

8 Scalability of instrumentation and postprocessing Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

9 Scalability of instrumentation / preprocessing What/where/how Selection States, events Time/space Structure detections Signal processing Clustering Summarization Software counters Distributed implementation Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

10 Scalability of instrumentation / preprocessing XML control specification <trace enabled="yes" home= /gpfs/apps/cepbatools/64.hwc"> <mpi enabled="yes"> <callers enabled="yes">1-3</callers> <counters enabled="yes" /> </mpi> <counters enabled="yes"> <openmp enabled="no"> <cpu enabled="yes" starting-set-distribution="1"> <locks enabled="no" /> <set enabled="yes" domain="all changeatglobalops="5"> <counters enabled="yes" /> </openmp> PM_CYC,PM_DATA_FROM_MEM,PM_GCT_FULL_CYC,PM_INST_CMPL,PM_INST_DISP,PM_LD_MISS_L1,PM_LD_REF_L1,PM_ST_REF_L1 </set> <set enabled="yes" domain="user" changeatglobalops="5"> PM_BRQ_FULL_CYC,PM_BR_MPRED_CR,PM_BR_MPRED_TA,PM_CYC,PM_GCT_FULL_CYC,PM_INST_CMPL,PM_INST_DISP,PM_LD_MISS_L1 <user-functions enabled="yes" </set> list= /home/bsc41/bsc41273/user-functions.dat"> <max-depth enabled="yes">3</max-depth> </cpu> <counters enabled="yes" <network /> enabled="yes" /> </user-functions> <resource-usage enabled="yes" /> </counters> <bursts enabled="no"> <threshold enabled="yes">500u</threshold> <counters enabled="yes" /> <mpi-statistics enabled="yes" /> </bursts> Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Distributed trace control MRNET based mechanism Local

front-end initiation of collection process Local

Locally emit trace events i i+n 10 300 i 0 i+m 1

25MB, <85 col 245MB, >15500 col Collective internals

11 Distributed trace control MRNET based mechanism Local instrumentation on a circular buffer Periodic MRNet front-end initiation of collection process Local algorithm Reduction on tree Selection at root propagated Locally emit trace events i i+n i 0 i+m 1 Algorithm Collective duration threshold <1MB, <85 col 25MB, <85 col 245MB, >15500 col Collective internals Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

12 Scalability of display Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

13 Scalability of Presentation Aggregation Functional rather than scalability motivation Per thread NAS LU-MZ. MPI+OpenMP. 121 SP Nighthawk Per process Display Non linear render Value for pixel Colors Random Max max min Per application Objects Any subset Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Scalability of Presentation Linpack @ MareNostrum 1700 seconds Dgemm duration 11.

14 Scalability of Presentation MareNostrum 1700 seconds Dgemm duration 11.8 s 10 s processors Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Scalability of Presentation Linpack @ MareNostrum 1700 seconds Dgemm IPC 2.95 2.

15 Scalability of Presentation MareNostrum 1700 seconds Dgemm IPC processors Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Scalability of Presentation Linpack @ MareNostrum 1700 seconds Dgemm L1 miss ratio 0.8 0.

16 Scalability of Presentation MareNostrum 1700 seconds Dgemm L1 miss ratio processors Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

17 Dynamic range Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

18 Interoperation between analysis and display 512 procs. Which is the longest MPI call? Why? Duration of MPI calls MPI calls Who sends to 125 Histogran of duration of MPI calls Who sends to 125 in selected area Scalability being able to find needles in a haystack Duration of longest calls Longest calls MPI calls form senders to 125 Useful duration Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

19 Analysis methodology Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Methodology: Automatic analysis 570 s 2.2 GB MPI, HWC WRF-NMM Peninsula 4km 128 procs WRF-NMM Peninsula 4km 256 procs WRF-NMM Peninsula 4km 512 procs 570 s 5 MB 4.6 s 36.

trf Sup = P P LB CommEff * LB CommEff IPC # instr * * IPC # instr 0 * 0 0 0 0 Instructions Completed 0.6 0.4 0.

20 Methodology: Automatic analysis 570 s 2.2 GB MPI, HWC WRF-NMM Peninsula 4km 128 procs WRF-NMM Peninsula 4km 256 procs WRF-NMM Peninsula 4km 512 procs 570 s 5 MB 4.6 s 36.5 MB Sanity checks Flushing Preemptions DBSCAN (Eps=0.01, MinPoints=20) clustering of trace WRF-128-PI.chop2.trf Sup = P P LB CommEff * LB CommEff IPC # instr * * IPC # instr 0 * Instructions Completed L1 Misses Region IPC L3D misses per 1000 instr D TLB misses per 1000 instr L1D $ misses per 1000 instr Bytes / Instr 1 0,57 2,34 0,01 75,55 0,30 2 0,54 0,48 0,05 52,6 0,06 3 0,53 1,18 0,14 47,64 0,15 4 0,62 0,38 0,04 43,27 0,05 5 0,42 1,56 0,18 43,84 0,20 Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

21 Clustering report ClusterID * Basic metrics --> IPC > MIPS > MFLOPS > L1 Data Misses/KInstr > L2 Data Misses/KInstr > Memory BW * CPIStack Model --> Completion Cycles > Completion Table Empty > I-Cache Miss Penalty > Branch redirection > Others > Completion Stall Cycles > Stall by LSU instruction > Stall by reject > D-Cache miss > LSU Basic Latency > Stall by FXU instruction > DIV/MTSPR/ecc > FXU basic latency > Stall by others Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

22 Interoperability Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

23 Interoperability Between Paraver Modules Search: 2D timeline To standard data analysis tools Excel OpenDX Between Performance analysis tools Paraver - Dimemas Fine grain network simulators FSIM IBM -Zurich Compatibility with other trace formats and analyzers Higher level application models: Performance assertions (ORNL) Fine grain processor performance: Instruction level simulator Processor performance models Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

24 Dimemas: Coarse grain, Trace driven simulation Simulation: Highly non linear model Linear components Point to point communication Sequential processor performance Global CPU speed Per block/subroutine MessageSize T = + BW L Non linear components Synchronization semantics Blocking receives Rendezvous Resource contention CPU Communication subsystem links (half/full duplex), busses L CPU CPU CPU Local Memory L CPU CPU CPU Local Memory B L CPU CPU CPU Local Memory Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

25 Network sensitivity Simulations with 4 processes per node NMM Iberia 4Km Not sensitive to Latency 512 sensitive to contention? 256 MB/s OK ARW Iberia 4 Km Not sensitive to Latency sensitive to contention Speedup vs. Nominal Latency Impact of BW (L=8; B=0) 1.20 NMM 512 ARW 512 NMM 256 ARW 256 NMM 128 ARW 128 Impact of latency (BW=256; B=0) Need 1GB/s Speedup vs. Full comectivity Contention Impact (L=8; BW=256) NMM 512 ARW 512 NMM 256 ARW 256 NMM 128 ARW 128 Efficiency NMM 512 ARW 512 NMM 256 ARW 256 NMM 128 ARW Commectivity (B) Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

Interoperability XML control Epilog/OTF.pem/MPtrace OMPITrace Translators Translators Expert MRNET Dyninst, PAPI.prv Performance Assertions,... Time analysis, filters.prv +.pcf Paraver.cfg.

26 Interoperability XML control Epilog/OTF.pem/MPtrace OMPITrace Translators Translators Expert MRNET Dyninst, PAPI.prv Performance Assertions,... Time analysis, filters.prv +.pcf Paraver.cfg.trf how2gen.xml DIMEMAS FSIM... IBM-Zurich İBM Contention analysis environment Stats Gen.viz.cube.xls.txt Machine description Instr. Level Simulators PeekPerf Cube OpenDX Data Display Tools Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

27 Conclusion Traces useful to understand and develop still at large process counts. Importance of variance in time and space. Trace visualization should support for high dynamic range. Importance of algorithms vs mechanisms Interest in integration/interoperation: Probe injection mechanisms Hwc Trace control mechanism and specification Profiler output to drive tracing run Scalable acquisition infrastructure Trace formats Control of fine grain instrumentation Signal and data interfaces Profile files format Jesus Labarta, Workshop on Tools for Petascale Computing, Snowbird, Utah,July

CEPBA-Tools environment. Research areas. Models. How to? GROMACS analysis. Paraver. Dimemas. Time analysis. On-line analysis.

CEPBA-Tools environment. Research areas. Models. How to? GROMACS analysis. Paraver. Dimemas. Time analysis. On-line analysis. Performance Analisis with CEPBA A-Tools Judit Gimenez P erformance Tools judit@ @bsc.es CEPBA-Tools environment Paraver Dimemas Research areas Time analysis Clustering On-line analysis Sampling Models