AutoTVM & Device Fleet

Size: px

Start display at page:

Download "AutoTVM & Device Fleet"

Rosalyn Pitts
5 years ago
Views:

1 AutoTVM & Device Fleet `

2 Learning to Optimize Tensor Programs Frameworks High-level data flow graph and optimizations Hardware

3 Learning to Optimize Tensor Programs Frameworks High-level data flow graph and optimizations Hardware

4 Learning to Optimize Tensor Programs Frameworks High-level data flow graph and optimizations Machine Learning based Program Optimizer Hardware

5 Learning to Optimize Tensor Programs Frameworks High-level data flow graph and optimizations Machine Learning based Program Optimizer Learning to generate optimized program for new operator workloads and hardware Hardware

6 Search over Possible Program Transformations Compute Description C = tvm.compute((m, n), lambda y, x: tvm.sum(a[k, y] * B[k, x], axis=k)) Loop Transformations Thread Bindings Cache Locality Thread Cooperation Tensorization Latency Hiding Hardware

7 Search over Possible Program Transformations Compute Description C = tvm.compute((m, n), lambda y, x: tvm.sum(a[k, y] * B[k, x], axis=k)) Loop Transformations Thread Bindings Cache Locality Thread Cooperation Tensorization Latency Hiding Hardware

8 Search over Possible Program Transformations Compute Description C = tvm.compute((m, n), lambda y, x: tvm.sum(a[k, y] * B[k, x], axis=k)) Billions Loop Thread Bindings Cache Locality of possible Transformations optimization Thread choices Cooperation Tensorization Latency Hiding Hardware

9 Learning-based Program Optimizer Program Optimizer Code Generator Program!4

10 Learning-based Program Optimizer Program Optimizer Code Generator Program Runtime Measurements!4

11 Learning-based Program Optimizer Program Optimizer Code Generator Program Runtime Measurements High experiment cost, each trial costs ~1second!4

12 Learning-based Program Optimizer Program Optimizer Code Generator Program!5

13 Learning-based Program Optimizer Program Optimizer Code Generator Program Cost Model!5

14 Learning-based Program Optimizer Program Optimizer Code Generator Program Cost Model Need reliable cost model per hardware!5

15 Learning-based Program Optimizer Program Optimizer Code Generator Program

16 D<latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> Learning-based Program Optimizer Program Optimizer Code Generator Program Training data

17 D<latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> Learning-based Program Optimizer Program Optimizer Code Generator Program Learning Statistical Cost Model Training data

18 D<latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> <latexit sha1_base64="1z6czjbl0omvztfq+m452ydkcy0=">aaab8nicbvdlssnafl2pr1pfvzdugkvwvrirdfnuhcsk9gftkjpppb06mqkzn0ij/qw3lhrx69e482+ctflo64gbwzn3mueembhcood9o6w19y3nrfj2zwd3b/+genjunirvllwoekp3q2ky4jk1kkng3uqzeoecdcljbe53npg2xmlhncysimli8ohtglbq9wocy0pedjcbvgte3zvdxsv+qwpqodmofvwhiqyxk0gfmabnewkggdhiqwczsj81lcf0qkasz6kkmtnbno88c8+smnqjpe2t6m7v3xsziy2zxqgdzcoazs8x//n6kubxqczlkiktdpfrlaoxlzvf7w65zhtf1bjcnbdzxtommlc0lvvscf7yyaukfvh3vbr/cflr3br1loeetuecflicbtxde1paqcezvmkbg86l8+58lezltrfzdh/gfp4adn2rwg==</latexit> Learning-based Program Optimizer Program Optimizer Code Generator Program Learning Statistical Cost Model Training data Unique Problem Characteristics Relatively low experiment cost Domain-specific problem structure Large quantity of similar tasks

19 Program-aware Cost Modeling High-Level Configuration

20 Program-aware Cost Modeling High-Level Configuration for y in range(8): for x in range(8): C[y][x]=0 for k in range(8): C[y][x]+=A[k][y]*B[k][x] Low-level Abstract Syntax Tree (shared between tasks)

21 Program-aware Cost Modeling High-Level Configuration touched memory C A B y x outer loop length y 1 x 8 Boosted Tree Ensembles k k 64 statistical for y in range(8): for x in range(8): C[y][x]=0 for k in range(8): C[y][x]+=A[k][y]*B[k][x] features Low-level Abstract Syntax Tree (shared between tasks)

Program-aware Cost Modeling High-Level Configuration touched memory C A B y 64 64 64 x 8 8 64 outer loop length y 1 x 8 Boosted Tree Ensembles k 1 8 8 k 64 statistical for y in range(8): for x in

22 Program-aware Cost Modeling High-Level Configuration touched memory C A B y x outer loop length y 1 x 8 Boosted Tree Ensembles k k 64 statistical for y in range(8): for x in range(8): C[y][x]=0 for k in range(8): C[y][x]+=A[k][y]*B[k][x] features for soft scatter Low-level Abstract Syntax Tree context vec of y for + TreeGRU (shared between tasks) context vec of x for context vec of k final embedding

23 Effectiveness of ML based Model !8

24 Effectiveness of ML based Model One Conv2D Layer of ResNet18 on Titan X !8

25 Effectiveness of ML based Model One Conv2D Layer of ResNet18 on Titan X Number of Trials!8

26 Effectiveness of ML based Model 1.50 Relative Speedup Baseline: CuDNN 0.25 One Conv2D Layer of ResNet18 on Titan X Number of Trials!8

27 Effectiveness of ML based Model 1.50 Relative Speedup TVM: Random Search Baseline: CuDNN 0.25 One Conv2D Layer of ResNet18 on Titan X Number of Trials!9

28 Effectiveness of ML based Model 1.50 TVM: ML-based Model Relative Speedup TVM: Random Search Baseline: CuDNN 0.25 One Conv2D Layer of ResNet18 on Titan X Number of Trials!10

29 Transfer Learning Among Different Workloads Historical Optimization Tasks

30 Transfer Learning Among Different Workloads Historical Optimization Tasks Domain Invariant Program Representations

31 Transfer Learning Among Different Workloads Historical Optimization Tasks Domain Invariant Program Representations Transferable Models to speedup new tasks

32 Transfer Learning Among Different Workloads Historical Optimization Tasks Domain Invariant Program Representations Transferable Models to speedup new tasks

33 NVIDIA GPU Optimization (GTX 1080 Ti) MXNet + TensorRT 4.0 AutoTVM Latency (ms) ResNet-50 MobileNet VGG-19 Inception V3 DenseNet-121

34 AMD GPU Optimization (Vega FE) MIOpen AutoTVM Latency (ms) ResNet-50 MobileNet DenseNet-121

35 Bonus (INT8, GTX 1080) cudnn AutoTVM 1.6E E-04 Latency (ms) 8E-05 4E-05 0E

36 High Level: Scaling Automatic Performance @!15

37 Low Level: Portable RPC Tracker + Server Resource Allocation Resource Manager (Tracker) Resource token RPC RT JIT driver Hardware bitstream Zynq FPGA board Red modules can be reconfigured remotely in each session cross compiler RPC client Optimization Service RPC Session Data Path RPC RT CUDA tasks Nvidia GPU Server RPC RT ROCm tasks AMD GPU Server cross compiler RPC client RPC RT OpenCL tasks RPC RT ARM tasks Optimization Service Android Phone Raspberry Pi ML-based cost model Prioritizer Running optimization services Workload 1 Workload 2 Workload 3 Shared cluster of heterogeneous devices!16

38 RPC Communication Flow Client Tracker Device Client upload code run code Device return run time!17

39 RPC Communication Flow device free Client Tracker Device Client upload code run code Device return run time!17

40 RPC Communication Flow device free Client Tracker Device Client upload code run code Device return run time!17

41 RPC Communication Flow request device device free Client Tracker Device Client upload code run code Device return run time!17

42 RPC Communication Flow request device device free Client Tracker Device Client upload code run code Device return run time!17

43 RPC Communication Flow request device device free Client Tracker Device Client upload code run code Device return run time!17

44 RPC Communication Flow request device device free Client return handle Tracker Device upload code Client run code Device return run time!17

45 Model to Tuned Implementation Model Bag of Operators operator extraction AutoTVM tuning Tuned Model!18

46 Next: Autoscheduler, 16:30 Handcrafted Schedule Templates conv2d, x86 conv2d, GPU, winograd conv2d, ARM, spatial packing!19

TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

TVM: An Automated End-to-End Optimizing Compiler for Deep Learning Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Meghan Cowan, Haichen Shen, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos