DON T CRY OVER SPILLED RECORDS Memory elasticity of data-parallel applications and its application to cluster scheduling

Size: px

Start display at page:

Download "DON T CRY OVER SPILLED RECORDS Memory elasticity of data-parallel applications and its application to cluster scheduling"

Elwin Parrish
6 years ago
Views:

1 DON T CRY OVER SPILLED RECORDS Memory elasticity of data-parallel applications and its application to cluster scheduling Călin Iorgulescu (EPFL), Florin Dinu (EPFL), Aunn Raza (NUST Pakistan), Wajih Ul Hassan (UIUC), Willy Zwaenepoel (EPFL)

2 Cluster operators care about resource utilization Best bang for your buck! Maximize performance of data-parallel applications Idea: Efficient resource utilization through under-provisioning 7/12/17 École Polytechnique Fédérale de Lausanne 2 / 33

3 Cluster memory is under-utilized! Avg. mem. utilization: 78% 7/12/17 École Polytechnique Fédérale de Lausanne 3 / 33

4 Cluster memory is under-utilized! Leverage this idle memory! Avg. mem. utilization: 78% 7/12/17 École Polytechnique Fédérale de Lausanne 3 / 33

Impact of memory constraining applications Conventional wisdom: do not touch memory! Risks: crashes severe performance degradation (e.g., thrashing) Can we safely, deterministically, and with modest impact constrain memory?

5 Impact of memory constraining applications Conventional wisdom: do not touch memory! Risks: crashes severe performance degradation (e.g., thrashing) Can we safely, deterministically, and with modest impact constrain memory? 7/12/17 École Polytechnique Fédérale de Lausanne 4 / 33

6 Context: batch jobs and their memory usage 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

7 Context: batch jobs and their memory usage Input 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

8 Context: batch jobs and their memory usage Input Ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

9 Context: batch jobs and their memory usage Input Ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

10 Context: batch jobs and their memory usage Input Ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

11 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Read Compute Write 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

12 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

13 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

14 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

15 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

16 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

17 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

18 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Read Compute Write Non-ideal memory Read Spill Read Spill Read Compute Merge Write 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

19 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Penalty Read Compute Write Non-ideal memory Read Spill Read Spill Read Compute Merge Write 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

20 Context: batch jobs and their memory usage Input Disk I/O CPU Ideal memory Ideal duration Penalty Read Compute Write Batch jobs handle memory under-provisioning intermediate results spilled to disk Non-ideal memory Read Spill Read Spill Read Compute Merge Write 7/12/17 École Polytechnique Fédérale de Lausanne 5 / 33

21 MEMORY ELASTICITY 7/12/17 École Polytechnique Fédérale de Lausanne 6 / 33

22 What is Memory Elasticity? Non-ideal memory Disk I/O CPU Task Heap Task Heap 7/12/17 École Polytechnique Fédérale de Lausanne 7 / 33

23 What is Memory Elasticity? Non-ideal memory Disk I/O CPU Safely constrain memory Task Heap Task Heap 7/12/17 École Polytechnique Fédérale de Lausanne 7 / 33

24 What is Memory Elasticity? Non-ideal memory Disk I/O CPU Safely constrain memory Moderate penalties Task Heap Task Heap 7/12/17 École Polytechnique Fédérale de Lausanne 7 / 33

25 What is Memory Elasticity? Non-ideal memory Disk I/O CPU Safely constrain memory Moderate penalties Highly predictable Task Heap Task Heap 7/12/17 École Polytechnique Fédérale de Lausanne 7 / 33

26 What is Memory Elasticity? Non-ideal memory Disk I/O CPU Safely constrain memory Moderate penalties Highly predictable Task Heap Ubiquitous for most data-parallel apps Task Heap 7/12/17 École Polytechnique Fédérale de Lausanne 7 / 33

27 An empirical study of Memory Elasticity Analysis of 18 jobs across 8 different applications Constrain tasks memory measure penalty Bypass disk buffer cache (to not mask impact of spilling to disk) 7/12/17 École Polytechnique Fédérale de Lausanne 8 / 33

28 Questions about Memory Elasticity 7/12/17 École Polytechnique Fédérale de Lausanne 9 / 33

29 Questions about Memory Elasticity Are the penalties large? 7/12/17 École Polytechnique Fédérale de Lausanne 9 / 33

30 Questions about Memory Elasticity Are the penalties large? Do penalties vary considerably w.r.t given memory? 7/12/17 École Polytechnique Fédérale de Lausanne 9 / 33

31 Questions about Memory Elasticity Are the penalties large? Do penalties vary considerably w.r.t given memory? Does the additional I/O cause disk contention? 7/12/17 École Polytechnique Fédérale de Lausanne 9 / 33

32 Questions about Memory Elasticity Are the penalties large? Do penalties vary considerably w.r.t given memory? Does the additional I/O cause disk contention? NOT SO MUCH! 7/12/17 École Polytechnique Fédérale de Lausanne 9 / 33

33 Normalized task execution time Elasticity of Hadoop workloads: Reducers 10% 50% 90% Nutch Indexing Pagerank 1 Pagerank 2 TPC-DS Q40 TPC-DS Q7 Conn. Comp. 1 Word Count Terasort Recomm. 1 Recomm. 2 7/12/17 École Polytechnique Fédérale de Lausanne 10 / 33

34 Normalized task execution time Elasticity of Hadoop workloads: Reducers 10% 50% 90% Nutch Indexing Pagerank 1 Surprise! The median penalty is <1.6x! Pagerank 2 TPC-DS Q40 TPC-DS Q7 Conn. Comp. 1 Word Count Terasort Recomm x Recomm. 2 7/12/17 École Polytechnique Fédérale de Lausanne 10 / 33

35 Why are the penalties so modest? Data buffer most of app. memory Sequential disk access Logarithmic external merge algorithms Memory pressure absorbed by data buffer Spilling records to disk is faster than OS paging Merge steps required << disk spills 7/12/17 École Polytechnique Fédérale de Lausanne 11 / 33

36 Normalized task execution time Elasticity of Hadoop workloads: Reducers 10% 50% 90% Nutch Indexing Pagerank 1 Pagerank 2 TPC-DS Q40 TPC-DS Q7 Conn. Comp. 1 Word Count Terasort Recomm x Recomm. 2 7/12/17 École Polytechnique Fédérale de Lausanne 12 / 33

37 Normalized task execution time Elasticity of Hadoop workloads: Reducers Nutch Indexing Pagerank 1 Pagerank 2 TPC-DS Q40 10% 50% 90% Surprise! For 10%, 50%, and 90% memory, penalties vary by at most 0.25x! TPC-DS Q7 Conn. Comp. 1 Word Count Terasort Recomm x Recomm. 2 7/12/17 École Polytechnique Fédérale de Lausanne 12 / 33

38 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

39 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

40 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB Buffer 2 GB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

41 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB Buffer Spills 2 GB 1 x 2 GB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

42 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB Buffer 2 GB Buffer 200 MB Spills 1 x 2 GB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

43 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB Buffer 2 GB Buffer 200 MB Spills 1 x 2 GB Spills 10 x 200 MB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

44 Why do penalties vary so little w/ memory? Static spilling threshold comparable data spilling for 90% and 10% of memory Input 2.1 GB Input 2.1 GB Buffer 2 GB Buffer 200 MB Spills 1 x 2 GB Spills 10 x 200 MB Total data spilled in both cases: 2GB 7/12/17 École Polytechnique Fédérale de Lausanne 13 / 33

45 Normalized task execution time Elasticity of Hadoop workloads: Mappers WordCount w/ combiner Conn. Comp. 1 10% 50% 90% Pagerank 2 Pagerank 1 WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 14 / 33

46 Normalized task execution time Elasticity of Hadoop workloads: Mappers WordCount w/ combiner Conn. Comp. 1 10% 50% 90% Penalties are even lower! Median penalty is ~1.2x! Pagerank 2 Pagerank 1 WordCount 1.38x 7/12/17 École Polytechnique Fédérale de Lausanne 14 / 33

47 Normalized task execution time Elasticity of Hadoop workloads: Mappers WordCount w/ combiner Conn. Comp. 1 10% 50% 90% Penalties are even lower! Median penalty is ~1.2x! Penalties for 10%, 50%, and 90% memory vary by at most 0.05x! Pagerank 2 Pagerank 1 WordCount 1.38x 7/12/17 École Polytechnique Fédérale de Lausanne 14 / 33

48 Normalized task execution time Elasticity of Spark and Tez workloads % 50% 90% Spark Terasort Spark WordCount Tez SortMergeJoin Tez WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 15 / 33

49 Normalized task execution time Elasticity of Spark and Tez workloads % 50% 90% Median penalty is ~1.75x! 2.4x 1 Spark Terasort Spark WordCount Tez SortMergeJoin Tez WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 15 / 33

50 Normalized task execution time Elasticity of Spark and Tez workloads % 50% 90% Median penalty is ~1.75x! 2.4x Penalties for 10%, 50%, and 90% memory vary by at most 0.3x! Spark Terasort Spark WordCount Tez SortMergeJoin Tez WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 15 / 33

51 Does the additional I/O cause disk contention? Measure slowdown of elastic tasks on same machine spilling to the same disk Number of concurrent reducers 7/12/17 École Polytechnique Fédérale de Lausanne 16 / 33

52 Does the additional I/O cause disk contention? Measure slowdown of elastic tasks on same machine spilling to the same disk Cluster operators usually provision 1 disk / 2 cores* <10% slowdown! * Facebook (2010) and Nutanix Number of concurrent reducers 7/12/17 École Polytechnique Fédérale de Lausanne 16 / 33

53 Does the additional I/O cause disk contention? Measure slowdown of elastic tasks on same machine spilling to the same disk Cluster operators usually provision 1 disk / 2 cores* <10% slowdown! Degradation <25% for up to 1 disk / 5 cores! * Facebook (2010) and Nutanix Number of concurrent reducers 7/12/17 École Polytechnique Fédérale de Lausanne 16 / 33

54 Summary: Memory Elasticity of real workloads Modest performance penalties (<1.6x median) Similar penalties for 10% and 90% of ideal memory Disk contention negligible for existing clusters setup (<10%) 7/12/17 École Polytechnique Fédérale de Lausanne 17 / 33

55 MODELING MEMORY ELASTICITY 7/12/17 École Polytechnique Fédérale de Lausanne 18 / 33

5 0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage

56 Normalized task execution time Modeling Memory Elasticity How does penalty vary for a task? % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 19 / 33

57 Normalized task execution time Modeling Memory Elasticity How does penalty vary for a task? Penalty 2 = f ( disk speed, input size, framework configuration ) % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 19 / 33

58 Normalized task execution time Modeling Memory Elasticity Penalties vary little between percentages step model % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 20 / 33

59 Normalized task execution time Modeling Memory Elasticity Penalties vary little between percentages step model Disk I/ O overhead % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 20 / 33

60 Normalized task execution time Modeling Memory Elasticity Requires 2 profiling runs infers all other points % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 21 / 33

61 Normalized task execution time Modeling Memory Elasticity Requires 2 profiling runs infers all other points Non-ideal memory % 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory Ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 21 / 33

62 Normalized task execution time Modeling Memory Elasticity Requires 2 profiling runs infers all other points Non-ideal memory The step model represents our baseline. More complex models are possible. 0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 110% Percentage of ideal memory Ideal memory 7/12/17 École Polytechnique Fédérale de Lausanne 21 / 33

63 Real duration normalized to model Accuracy of our reducer model 1.15 Avg. offset Pagerank 1 Pagerank 2 TPC-DS Q7 TPC-DS Q40 Conn. Comp. 1 Terasort Recomm. 1 Recomm. 2 Word Count Nutch Indexing Spark Terasort Tez SMJ Tez Word Count 7/12/17 École Polytechnique Fédérale de Lausanne 22 / 33

64 Real duration normalized to model Accuracy of our reducer model 1.15 Avg. offset 1.1 Most reducers are off at most by +/- 5%! Pagerank 1 Pagerank 2 TPC-DS Q7 TPC-DS Q40 Conn. Comp. 1 Terasort Recomm. 1 Recomm. 2 Word Count Nutch Indexing Spark Terasort Tez SMJ Tez Word Count 7/12/17 École Polytechnique Fédérale de Lausanne 22 / 33

65 Summary: Modeling memory elasticity Step model is adequate (more complex models available) Only 2 profiling points full model Models are very robust (+/- 5% error for most reducers) 7/12/17 École Polytechnique Fédérale de Lausanne 23 / 33

66 LEVERAGING MEMORY ELASTICITY IN CLUSTER SCHEDULING 7/12/17 École Polytechnique Fédérale de Lausanne 24 / 33

67 memory memory How can a scheduler reason about Memory Elasticity? Trade-off between task queueing time task execution time Elastic allocation time time 7/12/17 École Polytechnique Fédérale de Lausanne 25 / 33

completion time YARN (no ME) 1 2 3 time YARN-ME 2 1 3 time 2

68 memory memory memory YARN-ME: Decision process Make an elastic allocation iff it does not exceed the expected job completion time YARN (no ME) time YARN-ME time 2 YARN-ME 1 3 time 7/12/17 École Polytechnique Fédérale de Lausanne 26 / 33

Profiler generates the model metadata Ideal duration Ideal memory

69 YARN-ME: Design and components Resource Manager YARN-ME Timeline generator Components Timeline generator computes expected JCTs Profiler generates the model metadata Ideal duration Ideal memory Penalty Job ME metadata Profiler 7/12/17 École Polytechnique Fédérale de Lausanne 27 / 33

70 Memory utilization analysis for YARN-ME 50 node cluster Homogeneous trace: 5x Pagerank jobs 7/12/17 École Polytechnique Fédérale de Lausanne 28 / 33

71 Memory utilization analysis for YARN-ME 50 node cluster Homogeneous trace: 5x Pagerank jobs Memory utilization increased to 95% 7/12/17 École Polytechnique Fédérale de Lausanne 28 / 33

72 YARN-ME improvement over YARN (%) What gains can YARN-ME achieve for heterogeneous workloads? JCT Makespan MAP REDUCE node cluster Mixed trace 14 jobs 3x PageRank 3x Recommender 8x Wordcount 10 0 Total Pagerank Recommender WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 29 / 33

73 YARN-ME improvement over YARN (%) What gains can YARN-ME achieve for heterogeneous workloads? JCT Makespan MAP REDUCE Up to 65% improvement for JCT and makespan node cluster Mixed trace 14 jobs 3x PageRank 3x Recommender 8x Wordcount 10 0 Total Pagerank Recommender WordCount 7/12/17 École Polytechnique Fédérale de Lausanne 29 / 33

74 YARN-ME improvement over YARN (%) What gains can YARN-ME achieve for homogeneous workloads? JCT Makespan MAP REDUCE node cluster Pagerank concurrent runs /12/17 École Polytechnique Fédérale de Lausanne 30 / 33

75 YARN-ME improvement over YARN (%) What gains can YARN-ME achieve for homogeneous workloads? JCT Makespan MAP REDUCE Up to 40% improvement for JCT and makespan node cluster Pagerank concurrent runs /12/17 École Polytechnique Fédérale de Lausanne 30 / 33

76 Trace-driven simulation of YARN-ME We built DSS (the Discrete Scheduler Simulator) and it is open-source! Trace parameter sweep > 8,000 traces up to 3,000 nodes results comparable to real workloads Robustness analysis > 20,000 traces YARN-ME is robust to model mis-estimations 7/12/17 École Polytechnique Fédérale de Lausanne 31 / 33

77 Related work Efficient packing better resource utilization Tetris [SIGCOMM 14], GRAPHENE [OSDI 16] Collocate batch-jobs with latency-critical services Heracles [ISCA 15] Resource over-committing Apollo [OSDI 14], Borg [EuroSys 15] Suspend tasks under memory pressure ITask [SOSP 15] 7/12/17 École Polytechnique Fédérale de Lausanne 32 / 33

78 Conclusion: Don t cry over spilled records! Memory Elasticity highly predictable, low penalty Memory Elasticity in scheduling trade task queueing-time for running-time YARN-ME up to 60% improvement in average JCT DSS code available: 7/12/17 École Polytechnique Fédérale de Lausanne 33 / 33

Don t cry over spilled records: Memory elasticity of data-parallel applications and its application to cluster scheduling

Don t cry over spilled records: Memory elasticity of data-parallel applications and its application to cluster scheduling Călin Iorgulescu and Florin Dinu, EPFL; Aunn Raza, NUST Pakistan; Wajih Ul Hassan,