RAS$Directed,Instruc1on,Prefetching, (RDIP),

Size: px

Start display at page:

Download "RAS$Directed,Instruc1on,Prefetching, (RDIP),"

Rosamund Campbell
5 years ago
Views:

1 RAS$Directed,Instruc1on,Prefetching, (RDIP), Aasheesh,Kolli*,Ali,Saidi,Thomas,F.,Wenisch*,, *,University,of,Michigan,,,,,,,,,,,,,,,ARM,!!! MICRO'46!12/10/2013! 1!

Why,instruc1on,prefetching?, 1.6 Relative Performance 1.4 1.2 1 No Prefetcher (NoP) Better Ideal 50% 16% 0.

2 Why,instruc1on,prefetching?, 1.6 Relative Performance No Prefetcher (NoP) Better Ideal 50% 16% 0.8 gem5 HD-teraread HD-wdcnt ssj MC-friendfeed MC-microblog GMEAN Poor!I$!behavior!affects!modern!server!workloads! [Spracklen! 05][Ferdman! 08]![Ferdman! 11]! Cache!size!constraints!!!Prefetching!necessary! 2!

3 Why,another,prefetcher?, Next'2'line!(N2L)! +!Low!overhead! Modest!benefits,!ineffecZve!at!disconZnuiZes! ProacZve!InstrucZon!Fetch!(PIF)![Ferdman! 11]!! +!Best!performing!academic!proposal! Storage!overhead!(!>!200kB!per!core)! Design!complexity! Our Goal: Low overhead, high accuracy prefetcher 3!

4 Contribu1ons, I$!misses!'!program!context!correlaZon! Program!contexts!are!repeZZve,!predictable! RAS!succinctly!captures!program!context! RAS-Directed Instruction Prefetching (RDIP) RDIP achieves 11.5% increase in performance with only 64kB overhead 4!

5 5! Outline, Design,overview, RAS!signature!generaZon! Timely!prefetching! Results! Conclusions!

6 RDIP,design,overview, I$!misses!correlate!to!program!context! Program!contexts!are!predictable! RAS!state!represents!program!contexts! 1. Represent,program,context,using,a,RAS,signature, 2. Map,cache,misses,to,signatures, 3. Prefetch,upon,next,occurrence,of,signature,, 6!

7 7! RDIP,design,challenges, 1. Hash!RAS!contents!to!generate!program!context!signatures! Challenge:!Accurately!represent!program!contexts! 2. Record!cache!misses!associated!with!signature!in!Miss$Table$ Challenge:!Minimize!storage! 3. Prefetch!upon!signature!change!based!on!Miss$Table$ Challenge:!Ensure!Zmely!prefetches!!!

8 8! Outline, Design!overview! RAS,signature,genera1on, Timely!prefetching! Results! Conclusions!

9 Genera1ng,program,context,signatures, Use!contents!of!RAS!to!represent!contexts! Cannot!use!enZre!RAS!!need!compact!signatures! Signatures!must!differenZate!traversals!up!&!down!call!stack!! Call:!XOR!contents!of!RAS!aSer,push!onto!RAS,!append,0, Return:!XOR!contents!of!RAS!before,pop!from!RAS,!append,1,! 9!

10 10! Example,,, Call: XOR contents of RAS after push onto RAS, append 0 Return: XOR contents of RAS before pop from RAS, append 1 Dynamic,Instruc1ons, A:funcX{,,,,,,,,B:funcY{, },,,,,,,,,,,},,,,,,,,.,,,,,,,,C:funcY{,,,,,,,,,,,}, RAS,Signature, (A)0, (A B)0,, (A B)1,, (A C)0,, (A C)1,, RAS C B A

11 11! Outline, Design!overview! RAS!signature!generaZon! Timely,prefetching, Results! Conclusions!

12 Timely,prefetching, Miss$Table$stores!signature'misses!pairs! Prefetches!issued!by!looking!up!Miss$Table$ If!misses!tagged!with!current!signature?!!!Too!late!!! Execution Stream Signatures S 1 Prefetch Requests Time S 2 S 3 Late prefetches! Mapping misses to previous signature! Timely prefetches 12!

13 13! Issuing,prefetch,requests, Miss Table Current Signature S 1 Lookup S 2 S 1 Previous Signature Prefetch Queue To L2$

14 Misses tagged with previous signature!timely prefetching! 14! Upda1ng,miss,table, Miss Table Current Signature S 2 Signature Change! S 1 Update Previous Signature From L2$ Miss Buffer

15 15! Outline, Design!overview! RAS!signature!generaZon! Timely!prefetching! Results, Conclusions!

Experimental,setup, gem5! Core:!2GHz!OoO,!8'wide!commit,!16'entry!RAS! I$Cache:,32KB/2'way/64B,!2!cycles! D$Cache:,64KB/2'way/64B,!3!cycles! L2:!2MB/8'way/64B,!24!cycles! Workloads! gem5!!gem5!running!

16 Experimental,setup, gem5! Core:!2GHz!OoO,!8'wide!commit,!16'entry!RAS! I$Cache:,32KB/2'way/64B,!2!cycles! D$Cache:,64KB/2'way/64B,!3!cycles! L2:!2MB/8'way/64B,!24!cycles! Workloads! gem5!!gem5!running!a!spec!benchmark!(twolf)! HD$teraread,,!Hadoop:!Big!data!MapReduce!job! HD$wdcnt,,Hadoop:!Word!count!!!!!!! ssj,,tests!java!performance!in!specpower!!!!!!!! MC$friendfeed!!Memcached:! Facebook 'like!app! MC$microblog!!Memcached:! Twirer 'like!app!!! 16!

17 I$,misses,,signature,correla1on, 1 Miss Coverage gem5 HD-wdcnt HD-teraread ssj Better 0 MC-friendfeed MC-microblog Misses per Signature Strong,correla1on,between,misses,&,signatures, 17!

18 RDIP,prac1cal,design, Summary!of!takeaways!from!sensiZvity!studies:! RAS!size!for!signature!generaZon!!!4!top!entries! Miss!Table!!!4K!entries!(4'way!associaZve)! Entry!size!!!16B!(compacZon!technique![Ferdman! 11])! Max.!27!misses! Total Hardware Overhead = 64kB Please see the paper for a detailed analysis 18!

Percentage 300 250 200 150 100 Coverage,and,erroneous,prefetches, Erroneous

PIF RDIP N2L PIF RDIP N2L PIF RDIP N2L PIF RDIP gem5 HD-teraread HD-wdcnt ssj

19 Percentage Coverage,and,erroneous,prefetches, Erroneous Prefetches Misses Prefetch Hits Better Better 50 0 N2L PIF RDIP N2L PIF RDIP N2L PIF RDIP N2L PIF RDIP N2L PIF RDIP N2L PIF RDIP gem5 HD-teraread HD-wdcnt ssj MC-friendfeed MC-microblog Coverage: PIF ~ RDIP > N2L Erroneous prefetches: PIF > N2L > RDIP 19!

20 RDIP achieves 98% of the performance of PIF, with 3X storage reduction. 20! Relative Performance Performance, N2L PIF RDIP Ideal Better 0.8 gem5 HD-teraread HD-wdcnt ssj MC-friendfeed MC-microblog GMEAN Performance increase: N2L 5%, PIF 13%, RDIP 11.5%, Ideal 16%

21 Conclusions, I$!misses!!program!contexts!'!RAS!signatures! RDIP!performs!comparably!to!PIF!with!3X! storage!reduczon! 21!

22 22! Thank,You!, Ques1ons?,

RDIP: Return-address-stack Directed Instruction Prefetching

RDIP: Return-address-stack Directed Instruction Prefetching Aasheesh Kolli University of Michigan akolli@umich.edu Ali Saidi ARM ali.saidi@arm.com Thomas F. Wenisch University of Michigan twenisch@umich.edu