MANAGING MULTI-TIERED NON-VOLATILE MEMORY SYSTEMS FOR COST AND PERFORMANCE 8/9/16

Size: px

Start display at page:

Download "MANAGING MULTI-TIERED NON-VOLATILE MEMORY SYSTEMS FOR COST AND PERFORMANCE 8/9/16"

Sharon Green
5 years ago
Views:

1 MANAGING MULTI-TIERED NON-VOLATILE MEMORY SYSTEMS FOR COST AND PERFORMANCE 8/9/16

THE DATA CHALLENGE Performance Improvement (RelaLve)

in a single year 44ZB 1000 100 New storage class

3D-Xpoint, CNT 10 HDD throughput 1 2000 2001 2002

2 THE DATA CHALLENGE Performance Improvement (RelaLve) 4.4 ZB Total data created, replicated, and consumed in a single year 44ZB New storage class memory (SCM) NVMs MRAM, ReRAM, Source IDC D-Xpoint, CNT 10 HDD throughput

SSD/HDD HYBRID 1,000,000x 100,000x 10,000x 1,000x 100x 10x 1x HDD?

3 MEMORY HIERARCHIES ARE STILL NEEDED WITH NEW NVMS Performance (Access Speed) HOW TO ACHIEVE THIS? SSD/HDD HYBRID 1,000,000x 100,000x 10,000x 1,000x 100x 10x 1x HDD? Flash DRAM 10x 100x 1000x 10000x SRAM 10X delta from SRAM to DRAM New SCM NVMs(MRAM, ReRAM, 3D-Xpoint, ) 1,000X delta from DRAM to Cost ($/GB)

4 BRIDGING THE GAP BETWEEN HDD AND SSD Read Data HDD SSD Addr look up (t 1 ) Access Time 10ms 100us In SSD? Miss Hit Read from SSD Average access time = t 1 + Hit Rate x SSD access time + Miss Rate x (t 2 +HDD access time) Design requirement 1-2% penalty for Hybrid drive compared to SSD Addr look up & data replacement (t 2 ) Read from HDD

5 TRADEOFFS BETWEEN HIT RATE, CACHE ENGINE DELAY, AND PERFORMANCE 1% PERFORMANCE (DELAY) PENALTY 2% PERFORMANCE (DELAY) PENALTY t 1 1us 0.5us 0.1us t 2 100us 50us 10us t 1 1us 0.5us 0.1us t 2 100us 50us 10us Miss Rate Requirement 0 (Not Possible) % % Miss Rate Requirement % % % t 1 << SSD access time Hardware based lookup t 2 << HDD access time Software solution is acceptable Very high hit rate is required due to large performance gap between SSD and HDD Large cache, high associativity (i.e., data can placed anywhere in the cache)

6 CURRENT MEMORY HIERARCHIES L1 cache L2 cache Page (DRAM) HDD Miss rate # of entries 100s 10,000s millions 100s of millions Block placement 2-4 ways associative 4-8 ways associative Full set associative Lookup/Miss handling Hardware Hardware Hardware /Software Software Associativity PERFORMANCE HIT RATE, COST Source:

7 USE STORAGE CLASS MEMORY NVM AS CACHE Read Data Addr look up (t 1 ) Access Time SLC Storage Class Memory NVM DRAM 20us 200ns 20ns In DRA M? Addr look up & data replacement (t 2 ) Hit rate Miss rate Read from DRAM Read from SCM NVM or Achieving 0.1% DRAM access delay penalty requires low miss rate and low overhead cache engine Miss Rate 0.005% 0.001% % % t 2_SCM NVM (us) t 2_ (us) Not possible Not possible Not possible 20.0

8 HARDWARE CACHE ENGINE IS NEEDED FOR SCM NVM 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Relative time between NVM access and cache engine +SW Cache Eng SCM NVM +SW Cache Eng SCM NVM +HW Cache Eng Flash SCM NVMs SW Cache Eng HW Cache Eng

9 UTILIZING SCM NVMs AS A CACHE L1 cache L2 cache Page (DRAM) SCM NVM SSD # of entries 100s 10,000s 100,000s - millions Block placement 2-4 ways associative 4-8 ways associative Full set associative Millions Full set associative 100s of millions Lookup/Miss handling Hardware Hardware Hardware Hardware Software DESIGN CHALLENGE High hit rate Large cache size, full set associative Low overhead Small cache size, non set associative L

10 MARVELL FINAL LEVEL CACHE (FLC ) CACHE ENGINE LOW MISS RATE Support very large cache (GB) Large cache line (16KB or larger) Full set associative LOW OVERHEAD Pseudo CAM based design Hardware based pseudo-lru replacement scheme <10 clock cycle latency

PERFORMANCE OF FLC (TESTED ON HYBRID HDD) 5000 Hybrid HDD with FLC TM SSD 160 4500 4000

11 PERFORMANCE OF FLC (TESTED ON HYBRID HDD) 5000 Hybrid HDD with FLC TM SSD HDD PCMark8 Score PCMark8 BW

12 LOWER TIERS SHOULD FOCUS ON COST Register L1/L2/L3 Cache DRAM Register L1/L2/L3 Cache DRAM SCM-NVM SSD HDD SSD HDD LOWER THE COST!

13 ECONOMY OF CHIP DESIGN DOESN T WORK OUT UNIT COST = R&D COST + MASK COST + PACKAGE NRE # OF CHIPS + PER DIE COST+ PER PACKAGE COST R&D cost Increase Mask cost Increase Package NRE Increase # of chip Decrease Per dies cost Decrease Per package cost Flat or decrease Source:

14 NEED HIGH VOLUME TO AMORTIZE DEVELOPMENT COST ASSUMING A DERIVATIVE CONTROLLER - R&D COST $40M, MASK AND PACKAGING NRE $7.5M $50.00 Amortized R&D and Mask Cost vs Volume $45.00 $40.00 $35.00 $30.00 $25.00 $20.00 $15.00 $10.00 $5.00 $- 1,000,000 3,000,000 10,000,000 30,000,000 # of Chips

15 EXPANDABLE SSD CONTROLLERS TO HOST TO HOST TO HOST SATA 8 ch SATA 16 ch VS. SATA 8 ch MCi* 8gbps SATA 8 ch NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN NAN *MCi MoChi Interconnect DEVELOPMENT COST: $50M + $20M DEVELOPMENT COST: $50M

16 MoChi INTERCONNECT (MCi) IS TRANSPARENT SATA3 (Native) SOC MCi MoChi-SATA BRIDGE SATA3 READ bandwidth (MB/s) WRITE Bandwidth (MB/s) R/W Mixed Bandwidth (MB/s) Native SATA SATA through MCi

17 CONCLUSIONS IT S ALL ABOUT DATA ACCESS GET DATA WHEN NEEDED, AT THE RIGHT COST MULTI-TIERED DESIGN IS ESSENTIAL IN STORAGE SYSTEMS EVEN MORE IMPORTANT WITH NEW SCM NVMS HARDWARE-BASED CACHE ENGINE IS NEEDED FOR HIGH PERFORMANCE TIERS EXPANDABLE CONTROLLERS CAN HELP REDUCE DEVELOPMENT COST FOR LOW TIERS

Smart Me for Smart Life, Smart Lifestyle Driving Internet of Things Revolution

Smart Me for Smart Life, Smart Lifestyle Driving Internet of Things Revolution March 18, 2015 Weili Dai, President and Co-Founder Marvell Technology Group NASDAQ: MRVL Our Vision Smart Me 2 Three Fundamental