History-Based Harvesting of Spare Cycles and Storage in Large-Scale Datacenters

Size: px

Start display at page:

Download "History-Based Harvesting of Spare Cycles and Storage in Large-Scale Datacenters"

Maurice Williams
5 years ago
Views:

1 History-Based Harvesting of Spare Cycles and Storage in Large-Scale Datacenters Yunqi Zhang, George Prekas, Giovanni Matteo Fumarola, Marcus Fontoura, Íñigo Goiri, Ricardo Bianchini

Provisioned for peak load Unexpected load spikes and failures

2 Datacenters are underutilized Datacenters are massive Overprovision resources Low tail latency requirement Provisioned for peak load Unexpected load spikes and failures Underutilization wastes money Server Utilization Distribution of a Google Cluster. 2

3 Harvesting spare resources Interactive services + batch Low priority batch tasks Find safe co-locations Cluster-level Performance isolation Server-level 3

4 Challenges Interactive services own the servers Resource availability dynamics Utilization Task killing Time Data storage co-location Data unavailable Data loss 4

5 Challenges Utilization Interactive services own the servers Resource availability dynamics Task killing Time Data storage co-location Data unavailable Data loss Distributed data analytics across servers 4

6 Goals Improve efficiency without sacrificing QoS Minimize the probability of killing batch tasks Maximize data availability and durability 5

7 Batch task scheduling Utilization Can we learn anything from history? Time 6

8 Batch task scheduling Periodic Daily pattern Constant Fourier Transform Unpredictable 7

9 History-based task scheduling Long Jobs Constant 1 MAX(Peak, Current) Utilization Time headroom Medium Jobs Periodic 1 MAX(Average, Current) Utilization Time headroom Short Jobs Unpredictable 1 Current Utilization Time headroom 8

10 Data storage co-location Data availability Data durability Diverse in utilization pattern. Diverse in reimaging pattern. 9

11 History-based replica placement (Data Availability) Peak Utilization Disk Reimage Rate (Data Durability) 10

12 History-based replica placement (Data Availability) Peak Utilization Disk Reimage Rate (Data Durability) 10

13 History-based replica placement (Data Availability) Peak Utilization Disk Reimage Rate (Data Durability) 10

14 System implementation Clustering service Extract utilization and reimaging patterns YARN-H Protect interactive services by killing batch tasks Tez-H History-based batch task scheduling HDFS-H History-based replica placement Protect interactive services by denying accesses 11

15 Evaluation Real-system deployment 102-server cluster Interactive service: Lucene with utilization trace Batch task: TPC-DS queries on Hive Large-scale simulation Trace from 10 production datacenters at Microsoft Full datacenters for one month Production environment deployment Data replica placement 12

16 Batch task scheduling -- real system Degrading interactive service 13

17 Batch task scheduling -- real system Kill batch tasks 13

18 Batch task scheduling -- real system 21% improvement on average 13

19 Batch task scheduling -- simulation Up to 90% improvement 32% improvement on average 14

20 Replica placement -- durability >2 orders of magnitude improvement Higher durability with fewer replicas Deployed to thousands of production servers for almost a year Eliminated data losses except minor bugs and not enough diversity 15

21 Lessons learned from deployment Placement diversity and disk space utilization Synchronous operations and unavailability Simplicity is critical in production systems More lessons in the paper 16

22 Conclusion History-based resource harvesting Resource utilization dynamics Data storage co-location Complex data analytics distributed across servers Significantly improve datacenter efficiency Deployed in production datacenters Contributed to open-source community 17

23 History-Based Harvesting of Spare Cycles and Storage in Large-Scale Datacenters Yunqi Zhang, George Prekas, Giovanni Matteo Fumarola, Marcus Fontoura, Íñigo Goiri, Ricardo Bianchini

Scaling Distributed File Systems in Resource-Harvesting Datacenters

Scaling Distributed File Systems in Resource-Harvesting Datacenters Pulkit A. Misra Íñigo Goiri Jason Kace Ricardo Bianchini Duke University Microsoft Research Abstract Datacenters can use distributed