A Self-Designing Key-Value Store

Size: px

Start display at page:

Download "A Self-Designing Key-Value Store"

Augustine Stokes
5 years ago
Views:

1 A Self-Designing Key-Value Store Niv Dayan, Wilson Qin, Manos Athanassoulis, Stratos Idreos

2 storage is cheaper inserts & updates price per GB workload time

3 storage is cheaper inserts & updates price per GB workload time need for write-optimized database structures

4 need for write-optimized database structures LSM-tree invented 1996 now time

5 need for write-optimized database structures Key-Value Stores LSM-tree invented 1996 now time

6 Key-Value Stores

7 workload hardware Key-Value Stores? performance

8 workload hardware Key-Value Stores? performance

9 workload hardware Suboptimal Design Key-Value Stores? performance

10 Map Trade-Offs Navigate What-if?

11 LSM-tree Key-Value Stores What are they really?

12 updates memory storage level buffer 0

13 level updates memory storage buffer sort & flush runs 0 1

14 updates memory storage 0 buffer sort & flush 1 runs 2 sort-merge

15 level memory storage 0 buffer exponentially increasing capacities 1 O(log(N)) levels 2 3

16 lookup level key X memory storage fence 0 buffer pointers 1 one I/O per run 2 3 X

17 lookup level key X memory storage fence 0 buffer pointers 1 one I/O per run 2 3 X

18 lookup level key X memory storage Bloom fence 0 buffer filters pointers X

19 lookup level key X memory storage Bloom fence 0 buffer filters pointers 1 true negative 2 3 X

20 lookup level key X memory storage Bloom fence 0 buffer filters pointers 1 2 true negative false positive 3 X

21 lookup level key X memory storage Bloom fence 0 buffer filters pointers true negative false positive true positive X

22 Performance & Cost Tradeoffs lookup level key X memory storage Bloom fence 0 buffer filters pointers true negative false positive true positive X

23 Performance & Cost Tradeoffs lookup level key X memory storage Bloom fence 0 buffer filters pointers true negative false positive true positive X bigger filters fewer false positives

24 Performance & Cost Tradeoffs lookup level key X memory storage Bloom fence 0 buffer filters pointers true negative false positive true positive X bigger filters fewer false positives memory vs. lookups

25 Performance & Cost Tradeoffs lookup level key X memory storage Bloom fence 0 buffer filters pointers more merging fewer runs true negative false positive true positive X bigger filters fewer false positives memory vs. lookups

26 Performance & Cost Tradeoffs lookup level key X memory storage Bloom fence 0 buffer filters pointers more merging fewer runs true negative false positive true positive lookups vs. updates X bigger filters fewer false positives memory vs. lookups

27 main memory lookup cost update cost

28 main fixed memory memory lookup cost existing systems lookup cost update cost update cost

29 main fixed memory memory lookup cost merge less existing systems merge lookup cost update cost more update cost

30 main memory lookup cost less memory lookup cost update cost more memory update cost

31 Problem 1: Problem 2: lookup cost existing systems update cost

32 Problem 1: Problem 2: suboptimal design lookup cost existing systems update cost

33 fixed memory x Problem 1: suboptimal design lookup cost existing systems Problem 2: Pareto frontier update cost x

34 x Problem 1: Problem 2: suboptimal design hard to tune lookup cost x update cost

35 x Bloom filters size lookups vs. memory Problem 1: Problem 2: suboptimal design hard to tune lookup cost x update cost

36 x Problem 1: suboptimal design lookup merge policy greed cost max throughput lookups vs. updates Problem 2: hard to tune x update cost

37 Monkey: Optimal Navigable Key-Value Store Niv Dayan, Manos Athanasollis, Stratos Idreos SIGMOD 2017 Best of SIGMOD

38 Monkey: Optimal Navigable Key-Value Store observations: c insights: steps:

39 Monkey: Optimal Navigable Key-Value Store filters observations: fixed false positive rates c insights: lookup cost = pi suboptimal optimize allocation steps: asymptotically better memory vs. lookups

40 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge observations: fixed false positive rates policy? performance c insights: lookup cost = pi suboptimal log sorted array steps: optimize allocation asymptotically better memory vs. lookups updates vs. lookups navigate

41 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge ad-hoc memory policy trade-offs observations: fixed false positive rates? performance lookups updates c lookup cost = pi log lookup existing insights: cost sorted Monkey suboptimal array update cost optimize allocation steps: updates vs. lookups answer what-if asymptotically better design questions navigate memory vs. lookups

42 for fixed memory WiredTiger lookup cost Cassandra, HBase RocksDB, LevelDB Monkey Pareto frontier update cost

43 for fixed memory lookup cost max throughput WiredTiger Cassandra, HBase RocksDB, LevelDB Monkey Pareto frontier update cost

44 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge ad-hoc memory policy trade-offs observations: fixed false positive rates? performance lookups updates c lookup cost = pi log lookup existing insights: cost sorted Monkey suboptimal array update cost optimize allocation steps: updates vs. lookups answer what-if asymptotically better design questions navigate memory vs. lookups

45 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge ad-hoc memory policy trade-offs observations: fixed false positive rates? performance lookups updates c lookup cost = pi log lookup existing insights: cost sorted Monkey suboptimal array update cost optimize allocation steps: updates vs. lookups answer what-if asymptotically better design questions navigate memory vs. lookups

46 memory storage buffer Bloom filters fence pointers data f

47 memory storage buffer Bloom filters fence pointers data f

48 memory storage buffer Bloom filters fence pointers data f

49 memory storage Bloom fence buffer < > data filters pointers f

50 memory storage Bloom filters data f

51 memory storage X bits per entry Bloom filters data f

52 memory storage X bits per entry Bloom filters data f

53 memory X bits per entry Bloom filters false positive rate p = e bits M - ln(2) 2 entries N

54 memory X bits per entry Bloom filters p p p false positive rate p = e bits M - ln(2) 2 entries N

55 worst-case I/O overhead: memory X bits per entry Bloom filters p p p false positive rate p = e bits M - ln(2) 2 entries N

56 worst-case I/O overhead: O( p ) memory X bits per entry Bloom filters p p p false positive rate p = e bits M - ln(2) 2 entries N

57 worst-case I/O overhead: O( p ) memory X bits per entry Bloom filters p - bits M ln(2) 2 entries N p false = e positive rate p p

58 worst-case I/O overhead: O( e -M/N ) memory X bits per entry Bloom filters p p p false positive rate p = e bits M - ln(2) 2 entries N

59 worst-case I/O overhead: O( e -M/N ) memory X bits per entry Bloom filters p O(log(N)) p p

60 worst-case I/O overhead: O( log(n) e -M/N ) memory X bits per entry Bloom filters p O(log(N)) p p

61 worst-case I/O overhead: O( log(n) e -M/N ) memory X bits per entry Can we do better? Bloom filters p p p

62 lookup Bloom fence data key X filters pointers runs

63 lookup Bloom fence data key X filters pointers runs false positive I/O false positive I/O false positive false positive I/O I/O false positive I/O

64 lookup Bloom fence data key X filters pointers runs false positive I/O false positive I/O false positive I/O false positive I/O most memory false positive I/O

65 lookup Bloom fence data key X filters pointers runs false positive false positive I/O I/O most memory saves false at most 1 I/O I/O positive false positive I/O most memory false positive I/O

66 Bloom filters false positive rates reallocate some most memory

67 same Bloom memory, fewer lookup I/Os filters false positive rates reallocate some most memory

68 relax false positive rates 0 < p2 < 1 0 < p1 < 1 xx xx 0 < p0 < 1

69 relax false positive rates 0 < p2 < 1 0 < p1 < 1 0 < p0 < 1

70 relax model false positive rates lookup cost = f(p0, p1 ) 0 < p2 < 1 0 < p1 < 1 0 < p0 < 1 memory footprint = f(p0, p1 )

71 relax model optimize false positive rates lookup cost = f(p0, p1 ) 0 < p2 < 1 0 < p1 < 1 0 < p0 < 1 memory footprint = f(p0, p1 ) in terms of p0, p1

72 Bloom filters false p2 positive p1 rates p0 lookup cost = pi

73 memory Bloom filters footprint p2 false positive p1 bits - ln(2) 2 rates p0 false positive rate = e entries lookup cost = pi

74 memory Bloom filters footprint p2 false positive rates p1 p0 bits = - ln( false ) positive rate entries ln(2) 2 lookup cost = pi

75 memory Bloom filters footprint p2 bits(p2, N/T 2 ) false positive rates p1 p0 bits(p1, N/T) bits(p0, N) lookup cost = pi

76 memory Bloom filters footprint p2 bits(p2, N/T 2 ) false positive rates p1 p0 bits(p1, N/T) bits(p0, N) lookup cost = pi memory = - c N ln(p i) T i false positive rates size ratio constant entries

77 Bloom filters p2 optimize false positive p1 rates p0 lookup cost = pi memory = c N - ln(p i) T i

78 Monkey Bloom filters p0/t 2 exponential decrease false positive p0/t rates p0

79 Monkey Bloom filters State-of-the-Art Bloom filters false p0/t 2 exponential decrease p same positive rates p0/t p p0 p

80 Monkey Bloom filters State-of-the-Art Bloom filters < p0/t 2 < p false positive p0/t < p rates p0 > p lookup cost = pi < = p

81 Monkey Bloom filters State-of-the-Art Bloom filters < p0/t 2 < p false positive p0/t < p rates p0 > p lookup cost = pi < = p = O( e -M/N ) = O( log(n) e -M/N ) N number of entries M overall memory for Bloom filters

82 Monkey Bloom filters State-of-the-Art Bloom filters < p0/t 2 < p false positive p0/t < p rates p0 > p lookup cost = pi < = p = O( e -M/N ) = O( log(n) e -M/N ) asymptotic win N number of entries M overall memory for Bloom filters lookup cost increases at slower rate as data grows

83 Monkey Bloom filters false positive rates p0/t 2 p0/t p0 convergent geometric series

84 Monkey Bloom filters false p0/t 2 positive p0/t rates p0 - ln(pi) memory = c entries T i

85 Monkey Bloom filters false p0/t 2 positive p0/t rates p0 memory = c entries -ln(lookup cost)

86 Monkey Bloom filters false p0/t 2 positive p0/t rates p0 memory = c entries -ln(lookup cost) model lookups vs. memory trade-off

87 fixed memory Problem 1: Problem 2: suboptimal filters allocation hard to tune lookup cost existing systems update cost

88 fixed memory x Problem 1: Problem 2: suboptimal filters allocation hard to tune lookup cost existing systems x update cost

89 x Bloom filters size lookups vs. memory Problem 1: Problem 2: suboptimal filters allocation hard to tune lookup cost x update cost

90 x merge policy greed Problem 1: suboptimal filters allocation lookup max throughput lookups vs. updates cost Problem 2: hard to tune x update cost

91 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge ad-hoc memory policy trade-offs observations: fixed false positive rates? performance lookups updates c lookup cost = pi log lookup existing insights: cost sorted Monkey suboptimal array update cost optimize allocation steps: updates vs. lookups answer what-if asymptotically better design questions navigate memory vs. lookups

92 Monkey: Optimal Navigable Key-Value Store filters LSM-tree merge ad-hoc memory policy trade-offs observations: fixed false positive rates? performance lookups updates lookup cost = pi log c lookup existing insights: cost sorted Monkey suboptimal array update cost optimize allocation steps: updates vs. lookups answer what-if asymptotically better design questions navigate memory vs. lookups

93 Identify merge policy size ratio

94 Identify Map merge policy size ratio lookups updates

95 Identify Map merge policy sorted log size ratio lookups LSM-tree array updates

96 Identify Map merge policy log size ratio lookups sorted array updates

97 Identify Map Navigate merge policy log workload hardware size ratio lookups sorted array updates maximum optimal throughout

98 Merge Policies Tiering write-optimized Leveling read-optimized

99 Tiering write-optimized Leveling read-optimized

100 Tiering write-optimized Leveling read-optimized T runs per level

101 Tiering write-optimized Leveling read-optimized T runs per level merge & flush

102 Tiering write-optimized Leveling read-optimized T runs per level

103 Tiering write-optimized Leveling read-optimized T runs per level merge

104 Tiering write-optimized Leveling read-optimized T runs per level T times bigger flush

105 Tiering write-optimized Leveling read-optimized T runs per level T times bigger

106 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level

107 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T logt(n) e -M/N ) O(logT(N) e -M/N ) runs per level levels false positive rate levels false positive rate

108 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T logt(n) e -M/N ) O(logT(N) e -M/N ) runs per level levels false positive rate levels false positive rate

109 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T e -M/N ) O(e -M/N ) runs per level false positive rate false positive rate

110 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T e -M/N ) O(e -M/N ) update cost: O(logT(N)) O(T logt(n)) levels merges per level levels

111 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T e -M/N ) O(e -M/N ) update cost: O(logT(N)) O(T logt(n)) size ratio T

112 Tiering write-optimized Leveling read-optimized 1 run per level 1 run per level lookup cost: O(e -M/N ) = O(e -M/N ) update cost: O(log(N)) = O(log(N)) size ratio T

113 Tiering write-optimized Leveling read-optimized T runs per level 1 run per level lookup cost: O(T e -M/N ) O(e -M/N ) update cost: O(logT(N)) O(T logt(n)) size ratio T

114 Tiering write-optimized Leveling read-optimized O(lNl) runs per level 1 run per level lookup cost: O(Na e -M/N ) O(e -M/N ) update cost: O(1) O(N) size ratio T

115 Tiering write-optimized Leveling read-optimized O(lNl) runs per level 1 run per level lookup cost: log O(Na e -M/N ) sorted array O(e -M/N ) update cost: O(1) O(N) size ratio T

116 log lookup Tiering cost Leveling sorted array update cost

117 log lookup Tiering cost T=2 Leveling update cost sorted array T size ratio

118 log lookup Tiering cost log T=2 LSM-tree Leveling sorted array update cost sorted array T size ratio

119 log workload hardware lookup Tiering cost T=2 Leveling sorted maximum optimal throughout array update cost T size ratio

120 x merge policy greed Problem 1: suboptimal filters allocation lookup lookups vs. updates cost Problem 2: hard to tune max throughput x update cost

121

122 better asymptotic scalability lookup latency (ms) LevelDB Monkey number of entries (log scale)

123 better asymptotic scalability workload adaptability lookup latency (ms) LevelDB Monkey throughput T4 T2L L4 L4 navigable Monkey L6 L6 L8 L8 L16 fixed Monkey LevelDB (F) number of entries (log scale) % lookups in workload

124 Map Trade-Offs Navigate What-if?

125 Map Trade-Offs Navigate What-if? Thanks!

Dostoevsky: Better Space-Time Trade-Offs for LSM-Tree Based Key-Value Stores via Adaptive Removal of Superfluous Merging

Dostoevsky: Better Space-Time Trade-Offs for LSM-Tree Based Key-Value Stores via Adaptive Removal of Superfluous Merging Dostoevsky: Better Space-ime rade-offs for LSM-ree Based Key-Value Stores via Adaptive Removal of Superfluous Merging Niv Dayan, Stratos Idreos Harvard University ABSRAC We show that all mainstream LSM-tree