Things To Know. When Buying for an! Alekh Jindal, Jorge Quiané, Jens Dittrich

Size: px

Start display at page:

Download "Things To Know. When Buying for an! Alekh Jindal, Jorge Quiané, Jens Dittrich"

Hilda Wright
5 years ago
Views:

1 7 Things To Know When Buying for an! Alekh Jindal, Jorge Quiané, Jens Dittrich

2 1 What Shoes? Why Shoes?

3 3 Analyzing MR Jobs (HadoopToSQL, Manimal) Generating MR Jobs (PigLatin, Hive) Executing MR Jobs (Hadoop++, epic) Data Layouts & Access Paths!!

4 2 Why Elephant Needs Different Shoes?

5 5 Very Large Scale Storage & Execution DBMS MapReduce

6 6 Large Data Block Sizes DBMS MapReduce 8 KB 1 GB

7 7 Block Level Data Replication DBMS MapReduce 001 alex bsc 002 tim msc 003 mat bsc 004 joel bsc 005 phil msc 006 ron msc 007 neo bsc 008 jack msc 009 jens bsc 010 tom msc 001 alex bsc 002 tim msc 003 mat bsc 004 joel bsc 005 phil msc 006 ron msc 007 neo bsc 008 jack msc 009 jens bsc 010 tom msc

8 3 What s Wrong with Old Shoes?

9 Current Data Layouts in Hadoop Row Column* PAX** (default) 001 alex bsc 002 tim msc 003 mat bsc 004 joel bsc 005 phil msc 006 ron msc 007 neo bsc 008 jack msc 009 jens bsc 010 tom msc * A. Floratou et al. Column-Oriented Storage Techniques for MapReduce. PVLDB, April, 2011 ** Y. He et al. RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems. ICDE,

10 10 Current Data Layouts in Hadoop Row Column PAX Non-required Reads Network Costs Data Block Placement Tuple Reconstruction

11 10 Current Data Layouts in Hadoop Data Access Cost [sec] 5 4 Non-required Reads 3 Network Costs Data Block Placement 2 Trojan Layout Row Layout Column Layout PAX Layout Optimal Layout Tuple Reconstruction Row Column PAX Number of Referenced Attributes (Out of 30)

12 4 What Shoes do We Propose?

13 12 Trojan Data Layouts Replica 1 Replica 2 Replica 3

14 13 Trojan Data Layouts Non-required Reads Network Costs Data Block Placement Tuple Reconstruction Row Column PAX Trojan

15 Challenges in Trojan Data Layouts How do we design shoe for one leg? How do we design shoes for all legs? How do we make the shoes from the design? 14

16 5 How Do We Design the Shoes?

17 Single Replica Columns Column groups Filter Novel Column Group Interestingness Interesting Column groups Column Group Packing as 0-1 Knapsack Pack Complete & disjoint column groups 16

18 Multiple Replicas Queries Query groups Filter Interesting Query groups Pack Complete & disjoint query groups 17

19 18 Multiple Replicas Filter Pack Replica 1 Replica 2 Replica 3 Columns Columns Columns Column groups Filter Column groups Filter Column groups Filter Interesting Column groups Interesting Column groups Interesting Column groups Pack Pack Pack Complete & disjoint column groups Complete & disjoint column groups Complete & disjoint column groups

20 19 Multiple Replicas Q1, Q2, Q3, Q4, Q5, Q6, Q7, Q8 Filter TPC-H Customer Pack Q2, Q3, Q4 Q5 Q1, Q6, Q7, Q8 Replica 1 Replica 2 Replica 3 Columns Columns Columns Column groups Filter Column groups Filter Name Column groups Filter Custkey, Nationkey Interesting Column groups Name, Address, Phone, AcctBal, Mktsegment, Comment Pack Complete & disjoint column groups Mktsegment Interesting Column groups Custkey, Name, Address, Nationkey, Phone, AcctBal, Comment Pack Complete & disjoint column groups Custkey Mktsegment Phone, AcctBal Interesting Column groups Pack Complete & disjoint Address, Nationkey, Comment column groups

21 20 Trojan Layout Advantages Multiple layouts for a given workload Default row layout still available Specialized replicas for different query sub-class Divide and conquer layout computation

22 6 How do We Ride the Elephant?

23 Putting It All Together Load Create trojan layout configuration file in HDFS dataset layout-1 layout-2 layout-3 Query Supply referenced attributes in JobConf itemize UDF to transparently read the referenced attributes Schedule? Three Optimization Options: - data locality (default) - best layout - best layout & locality 22

24 7 How were the Field Trials?

25 24 Setup Datasets TPC-H Lineitem, TPC-H Customer, SSB LineOrder, SDSS PhotoObj Queries First 8 queries from the respective benchmark for each table Methodology focus on scan and projection operators i.e. map-phase-only jobs improvement: record reader time (I/O and tuple reconstruction) Hardware 50 virtual nodes in a 10 node cluster

26 25 Per-replica Trojan Layout Performance TPC-H Lineitem Improvement Factor over Hadoop-Row over Hadoop-PAX Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 TPC-H Queries (b) TPC-H

27 Layout Quality #Non-required Attributes Read #Joins in Tuple Reconstruction HADOOP-ROW HADOOP-PAX HYRISE* Layout 2 64 Trojan Layout >14% improvement over HYRISE * M. Grund et al. HYRISE - A Main Memory Hybrid Storage Engine. PVLDB, November,

28 Rela 0 Scheduling Decisions Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 TPC-H Queries TPC-H Lineitem 5 Scheduling Penalty 8 1 Best-Layout & Locality 4 Best-Layout Locality (default) Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 27

29 28 Summary Data layouts crucial to MR job performance Exploit default data block replication in MR Novel algorithm to compute per-replica layouts Improvement: 4.8x over Row, 3.5x over PAX Better than HYRISE; 14% improvement

How Achaeans Would Construct Columns in Troy. Alekh Jindal, Felix Martin Schuhknecht, Jens Dittrich, Karen Khachatryan, Alexander Bunte

How Achaeans Would Construct Columns in Troy Alekh Jindal, Felix Martin Schuhknecht, Jens Dittrich, Karen Khachatryan, Alexander Bunte Number of Visas Received 1 0,75 0,5 0,25 0 Alekh Jens Health Level