PEZY-SC Omni OpenACC GPU. Green500[1] Shoubu( ) ExaScaler PEZY-SC. [4] Omni OpenACC NVIDIA GPU. ExaScaler PEZY-SC PZCL PZCL OpenCL[2]

Size: px

Start display at page:

Download "PEZY-SC Omni OpenACC GPU. Green500[1] Shoubu( ) ExaScaler PEZY-SC. [4] Omni OpenACC NVIDIA GPU. ExaScaler PEZY-SC PZCL PZCL OpenCL[2]"

Wesley Shields
5 years ago
Views:

1 ZY-SC Omni 1,a) ,4 1,5 ZY-SC ZY-SC OpenCL ZCL ZY-SC Suiren Blue ZCL N-Body 98%NB CG 88% ZCL 1. Green500[1] Shoubu( ) xascaler ZY-SC MIMD xascaler ZY-SC ZCL ZCL OpenCL[2] ZCL ZY-SC 1 Graduate School of Systems and Information ngineering, University of Tsukuba 2 xascaler xascaler Inc. 3 (KK) Computing Research Center, High nergy Accelerator Research Organization (KK) 4 Center for Computational Sciences, University of Tsukuba 5 RIKN Advanced Institute for Computational Science a) tabuchi@hpcs.cs.tsukuba.ac.jp [3] GU ZY-SC ZY-SC ZY-SC Omni [4] Omni NVIDIA GU CUDA[5] source-to-source N-body NAS arallel Benchmarks CG (NB CG)[6] ZCL 2 3 ZY-SC ZCL 4 ZY-SC Omni ZY-SC [7] OpenCL OpenCL ZCL c 2016 Information rocessing Society of Japan 1

2 OpenCL ZCL OpenCL accull[8] OpenUH-[9] OpenARC[10] RoseACC[11] GCC [12] accull ython YaCF CUDA OpenCL OpenUH- OpenUH CUDA OpenCL OpenARC 1.0 Cetus compiler infrastructure RoseACC Rose Compiler OpenCL GU OpenCL CU MIC FGA ZY-SC ZCL OpenCL Omni ZCL ZY-SC 3. ZY-SC ZY-SC ZCL DDR4 DDR4 DDR4 1 L1 (2KB) L1 (2KB) Village (4) L2 (64KB) City (16) L3 (2MB) refecture (256) DDR4 ZY-SC T7 T6 2 T3 T2 T0 T1 1 refecture T4 T L1 L3 3.1 ZY-SC ZY rocessing lement () MIMD 8 SMT (Simultaneous MultiThreading) 8192 MIMD Village City refecture 8 16KB 2 ALU FU Village 4 2 2KB L1 City 4 Village Unit (SFU) 64KB L2 refecture 16 City 2MB L3 3.2 ZCL ZCL ZY ZY-SC OpenCL OpenCL AI OpenCL 1.1 OpenCL AI OpenCL ZCL c 2016 Information rocessing Society of Japan 2

3 City (128 ) OpenCL 3 ZCL C/C++OpenCL OpenCL kernel global local ZCL pzc ZCL OpenCL ID ID get pid() get tid() OpenCL get group id(0) get local id(0) get maxpid() get maxtid() OpenCL get num groups(0) get local size(0) ZCL chgthread() sync() flush() chgthread() sync() sync L1() Village sync L2() City sync L3() refecture flush() flush L1() Village L1 flush L2() City L1,L2 4. ZY-SC Omni ZY-SC Omni 4.1 C/C++/Fortran C C with 3 translator C with ACC AI call ZCL kernel C compiler ZCL compiler Run7me Library xecu7on file Kernel binary Omni Compiler load at runtime ZCL ZCL ZY-SC ZCL CU GU ZY-SC ZCL 4.2 C Fortran95 Omni Compiler Infrastructure[13] 3 C translator C ZCL C ZCL 2 Omni runtime library data data 4 data data a b copy a copyout b ACC init data lower length DV ADDR name name c 2016 Information rocessing Society of Japan 3

4 int a[100], b; #pragma acc data copy(a) copyout(b) /* some codes using a and b */ (a) int a[100], b; void *DSC_a,*DV_ADDR_a,*DSC_b,*DV_ADDR_b; unsigned long long _lower[] = 0; unsigned long long _length[] = 100; _ACC_init_data(&(DSC_a),&(DV_ADDR_a),a,sizeof(int),1,_lower,length); _ACC_init_data(&(DSC_b),&(DV_ADDR_b),&(b),sizeof(int),0,NULL, NULL); _ACC_copy_data(DSC_a,_ACC_HOST_TO_DVIC,_ACC_ASYNC_SYNC); /* some codes using a and b */ _ACC_copy_data(DSC_a,_ACC_DVIC_TO_HOST,_ACC_ASYNC_SYNC); _ACC_copy_data(DSC_b,_ACC_DVIC_TO_HOST,_ACC_ASYNC_SYNC); _ACC_finalize_data(DSC_a); _ACC_finalize_data(DSC_b); 4 (b) data DSC name name ACC copy data ACC finalize data 4.3 parallel parallel gang, worker, vector 3 ZCL gang vector firstprivate private #pragma acc parallel present(a) num_gangs(16) /* codes in parallel region */ (a) /* host code */ int _ACC_ngangs = 16; int _ACC_nworkers = 1; int _ACC_veclen = 8; int _ACC_conf[] = _ACC_ngangs, _ACC_nworkers, _ACC_veclen; void* _ACC_args[] = &DV_ADDR_a; size_t _ACC_argsizes[] = sizeof(void*); _ACC_launch(_ACC_program, 0, _ACC_conf, ACC_ASYNC_SYNC, 1, args, arg_sizes); /* kernel function in device code */ void pzc ACC_kernel_0(int *a) /* codes in parallel region */ 5 (b) parallel num gangs 5 parallel pzc ACC kernel 0 gang ACC args ACC argsizes ACC launch 1 ACC program cl program cl kernel 2 ACC launch clnqueuendrangekernel ZY-SC loop loop for gang vector cyclic loop reduction c 2016 Information rocessing Society of Japan 4

5 /* inside parallel region */ #pragma acc loop vector reduction(+:sum) for(i = 0; i < N; i++) a[i]++; sum += a[i]; (a) /* inside kernel function */ int _niter_i, _idx, _init, _cond, _step, _red_sum; _ACC_init_reduction_var(&_red_sum,0); _ACC_calc_niter(&_niter_i, 0, N, 1); _ACC_init_thread_iter(&_init,&_cond,&_step,_niter_i); for(_idx = _init; _idx < _cond; _idx += _step) int i; _ACC_calc_idx(_idx, &i, 0, N, 1); a[i]++; _red_sum += a[i]; _ACC_reduction_thread(sum,_red_sum, 0); 6 (b) loop 6 loop ACC calc niter ACC init thread iter ACC calc idx ACC init reduction var ACC reduction thread 5. ZCL N-Body) NB CG N-Body NB CG 5.1 KK Suiren Blue 1 N-Body 7 ZCL ZCL (merged kernel) 2 1 ZCL (merged kernel, chgthread) CU Memory Accelerator 1 (Suiren Blue) Intel Xeon Lv3 2.3GHz DDR4 1866MHz, 64GB ZY-SC (DDR4 1866MHz 16GB) Compiler ICC , ZSDK 2.1, Omni compiler for ZY-SC chgthread() ZCL % chgthread() N-Body NB CG 8 mop/s Mega Operations er Second 1 ZCL ZCL (merged kernel) conj grad 7 1 ZCL (merged kernel, chgthread) chgthread() ZCL % CG 0 ClassB ZCL % parallel parallel kernels 2 parallel 1 parallel parallel kernels 1 ZCL sync() kernels 1 kernels GU ZCL c 2016 Information rocessing Society of Japan 5

6 実行時間 (s) ZCL ZCL(merged kernel) ZCL(merged kernel, chgthread) 2 N-Body NB CG N-Body NB CG ZCL ZCL(merged kernel) ZCL(merged kernel, chgthread) 114 (5) 447 (25) K 16K 32K 64K 128K 256K 512K 1024K 粒子数 7 N-Body 48% NB CG 45% ZCL 6. mop / s A (14000) B (75000) C (150000) Class ( 行列サイズ ) 8 NB CG ZCL ZCL (merged kernel) ZCL (merged kernel, chgthread) chgthread() ZCL ZCL 11 38% CG chgthread() ZCL % ZCL kernels chgthread() 5.2 ZCL AI (SLOC) N-Body NB CG 2 ZCL N-Body ZY-SC ZY-SC NVIDIA GU CUDA Omni C ZY-SC ZCL N-Body ZCL 98% NB CG ZCL 88% ZCL N-Body 48% NB CG 45% kernels chgthread() [1] The green [2] Khronos Group, OpenCL - The open standard for parallel programming of heterogeneous systems. [3] -Standard.org, Home. [4] Akihiro Tabuchi, Masahiro Nakao, and Mitsuhisa Sato. A source-to-source openacc compiler for cuda. In uro- ar Workshops, pp , [5] NVIDIA, home_new.html. arallel rogramming and Computing latform CUDA. [6] NASA Advanced Supercomputing Division, http: // NAS arallel Benchmarks. [7]. Suiren c 2016 Information rocessing Society of Japan 6

7 .. [ ], No. 11, dec [8] Ruymán Reyes, Iván López-Rodríguez, JuanJ. Fumero, and Francisco de Sande. accull: An openacc implementation with cuda and opencl support. In uro-ar 2012 arallel rocessing, Vol of Lecture Notes in Computer Science, pp Springer Berlin Heidelberg, [9] Xiaonan Tian, Rengan Xu, Yonghong Yan, Zhifeng Yun, Sunita Chandrasekaran, and Barbara Chapman. Compiling a high-level directive-based programming model for gpgpus. In Languages and Compilers for arallel Computing, Lecture Notes in Computer Science, pp Springer International ublishing, [10] Seyong Lee and Jeffrey S. Vetter. Openarc: Open accelerator research compiler for directive-based, efficient heterogeneous computing. In roceedings of the 23rd International Symposium on High-performance arallel and Distributed Computing, HDC 14, pp , New York, NY, USA, ACM. [11] University of Delaware and LLNL, org/. RoseACC. [12] GCC, - GCC Wiki. [13] RIKN AICS and University of Tsukuba, omni-compiler.org. Omni Compiler roject. c 2016 Information rocessing Society of Japan 7

Omni Compiler and XcodeML: An Infrastructure for Source-to- Source Transformation

http://omni compiler.org/ Omni Compiler and XcodeML: An Infrastructure for Source-to- Source Transformation MS03 Code Generation Techniques for HPC Earth Science Applications Mitsuhisa Sato (RIKEN / Advanced