Workload-Aware Data Partitioning in CommunityDriven Data Grids

Size: px

Start display at page:

Download "Workload-Aware Data Partitioning in CommunityDriven Data Grids"

Lionel Ball
6 years ago
Views:

1 Workload-Aware Data Partitioning in CommunityDriven Data Grids Tobias Scholl, Bernhard Bauer, Jessica Müller, Benjamin Gufler, Angelika Reiser, and Alfons Kemper Department of Computer Science, Germany

2 ? e t Many challenges and opportunities in e-science for database a c i l research p e High-throughput data managementr r o Correlation of distributedidata sources t l p Community-driven data grids S I Dealing lwith d data skew and query hot spots u o h Workload-awareness by employing cost model during S partitioning 2

3 Query Load Balancing via Partitioning 3

4 Query Load Balancing via Partitioning 4

5 Query Load Balancing via Partitioning 5

6 Query Load Balancing via Partitioning X 6

7 Query Load Balancing via Replication 7

8 Query Load Balancing via Replication 8

9 Query Load Balancing via Replication 9

The AstroGrid-D Project German Astronomy Community Grid http://www.gac-grid.

10 The AstroGrid-D Project German Astronomy Community Grid Funded by the German Ministry of Education and Research Part of D-Grid 10

11 Up-Coming Data-Intensive Applications Alex Szalay, Jim Gray (Nature, 2006): Science in an exponential world Data rates LHC Terabytes a day/night Petabytes a year LHC LSST LOFAR Pan-STARRS LOFAR 11

12 The Multiwavelength Milky Way 12

13 Research Challenges Directly deal with Terabyte/Petabyte-scale data sets Integrate with existing community infrastructures High throughput for growing user communities 13

14 Current Sharing in Data Grids Data autonomy Policies allow partners to access data Each institution ensures Availability (replication) Scalability Various organizational structures [Venugopal et al. 2006]: Centralized Hierarchical Federated Hybrid 14

15 Community-Driven Data Grids (HiSbase) 15

16 Distribute by Region not by Archive! 16

17 Distribute by Region not by Archive! 17

18 Distribute by Region not by Archive! 18

19 Distribute by Region not by Archive! 19

20 Mapping Data to Nodes 20

21 Workload-Aware Training Phase Incorporate query traces during training phase Base partitioning scheme on Data load Query load Challenges Balance query load without losing data load balancing Approximate real query hot spots from query sample 21

22 Dealing with Query Hot Spots Query skew triggered by increased interest in particular subsets of the data Two well-known query load balancing techniques: Data partitioning Data replication Finding trade-offs between both 22

23 When to Split (Partition) or to Replicate Considers partition characteristics Amount of data (few/many data points) Number of queries (few/many queries) Extent of regions and queries (small/big queries) Data points Few Queries Many Queries Small Big Small Big Few SPLIT REPLICATE Many SPLIT SPLIT SPLIT REPLICATE 23

24 Region Weight Functions Data only (#objects in a region) Queries only (#queries in a region) Scaled queries Approximate real extent of hot spot Avoid overfitting to training query set Heat of a region (#objects * #queries) Extents of regions and queries Replicate when many big queries big small 24

25 Evaluation Weight functions: data, heat, extent Data sets (observational, simulation) Workloads (SDSS query log, synthetic) Partitioning Scheme Properties Load distribution Communication overhead Throughput Measurements Distributed setup FreePastry simulator Pobs 25

26 Load Distribution Uniform data set from the Millennium simulation Workload with extreme hot spot In the following: 1024 partitions Heat of a region (#data * #queries) Normalized across all partitioning schemes 26

27 Query-unaware Training 27

28 Training with Scaled Queries (scaled 50x) 28

29 Training with Scaled Queries (scaled 400x) 29

30 Heat-based, Extent-based Training 30

31 Communication Overhead for Pobs 31

32 Throughput for Pobs 32

33 Load Balancing During Runtime Complement workload-aware partitioning with runtime loadbalancing Short-term peaks Master-slave approach Load monitoring Long-term trends Based on load monitoring Histogram evolution 33

34 Related Work On-line load balancing Hundreds of thousands to millions of nodes Reacting fast Treating objects individually HiSbase 34

35 Should I Split or Replicate? Many challenges and opportunities in e-science for database research High-throughput data management Correlation of distributed data sources Community-driven data grids Dealing with data skew and query hot spots Workload-awareness by employing cost model during partitioning 35

36 Get in Touch Database systems group, TU München Web site: The HiSbase project Thank You for Your Attention 36

37 Queries Intersecting Multiple Regions 37

38 Regions Without Queries 38

39 Throughput for Pobs (300 nodes, sim.) 39

40 Throughput for Pobs (1000 nodes, sim.) 40

41 Throughput (Region-Uniform Queries) 41

Scalable Community-Driven Data Sharing in e-science Grids

Scalable Community-Driven Data Sharing in e-science Grids NOTICE: this is the author s version of a work that was accepted for publication in Future Generation Computer Systems. Changes resulting from the publishing process, such as peer review, editing, corrections,