- PDF Free Download

Size: px

Start display at page:

Download ""

Gertrude Simpson
5 years ago
Views:

8 -npool -ndiag

11 Z/DGEMM

12 MPI_Alltoall

14 MPI_Isend MPI_Irecv

19 Wilkes-2 (Cambridge) NVIDIA DGX-1 Piz Daint (CSCS) Summit Dev (ORNL) Davide (CINECA) CPU PLX NIC GPU PCIe NVLink

29 QE-GPU CSCS QE CSCS QE Cineca 1 P P BW (360c) 1 KNL (60c) 10 KNL (640c) init_run 15.92s 7.50s 4.45s 21.61s 10.33s electrons s s s s s update_pot 1.37s 1.04s 10.42s 31.95s 7.94s forces 12.06s 3.03s 13.20s 60.91s 11.93s stress 74.28s 15.82s 75.69s s 38.55s cdiaghg 71.38s 6.89s 15.51s s 76.15s PWSCF s s s s s Fermi energy ev ev ev ev ev Total energy Ry Ry Ry npool Ry Ry Total force Total stress Pressure BW/KNL results from

30 QE-GPU CSCS QE-GPU Sirius GPU CSCS 1 P P100 1 V100 1 P P init_run 15.92s 7.50s 11.06s electrons s s s s s update_pot 1.37s 1.04s 0.59s forces 12.06s 3.03s 8.58s 28.86s 3.85s stress 74.28s 15.82s 52.58s 94.95s 12.99s cdiaghg 71.38s 6.89s 84.10s s 76.15s PWSCF s s s s s Fermi energy ev ev ev ev ev Total energy Ry Ry Ry npool Ry Ry Total force Total stress Pressure BW/KNL/SIRIUS results from

$ pgf90 nvtx.cuf -L/usr/local/cuda/lib lnvtoolsext $ nvprof -o nvprof.output./a.out NVPROF is profiling process 10653, command:./a.out Generated result file: /Users/nvprof.

34 $ pgf90 nvtx.cuf -L/usr/local/cuda/lib lnvtoolsext $ nvprof -o nvprof.output./a.out NVPROF is profiling process 10653, command:./a.out Generated result file: /Users/nvprof.output program main use nvtx character(len=4) :: itcount! First range with standard color call nvtxstartrange("first label ) do n=1,14! Create custom label for each marker write(itcount,'(i4)') n! Range with custom color call nvtxstartrange("label "//itcount,n)! Add sleep to make markers big call sleep(1) call nvtxendrange end do call nvtxendrange end program main

36 gdb cuda-gdb #!/bin/bash QE_DIR=/home/cuda/qe-gpu INFILE=$1 export OMP_NUM_THREADS=6 export MKL_NUM_THREADS=6 export NO_STOP_MESSAGE=yes #export CUDA_VISIBLE_DEVICES=1 today=`date +'%y_%m_%d_%h_%m_%s'` #Normal run mpirun -np 1 --bind-to none ${QE_DIR}/PW/src/pw.x -input ${INFILE} # Run with gdb mpirun -np 1 --bind-to none gdb -ex=r --args ${QE_DIR}/bin/pw.x -input ${INFILE} # Run with cuda-gdb mpirun -np 1 --bind-to none cuda-gdb --args ${QE_DIR}/bin/pw.x -input ${INFILE}

37 1. Generate a backtrace (compile with -g if using -O2 or higher) $ export PGI_TERM='trace' 2. Run program $./a.out 0: copyin Memcpy (dev=0x(nil), host=0x0x7f , size= ) FAILED: 11(invalid argument) /opt/pgi/linux86-64/17.10/lib/libcudafor.so(pgf90_dev_copyin+0x5 3) [0x7f74110a0012]./a.out() [0x403b1a]./a.out() [0x4036d4] /lib/x86_64-linux-gnu/libc.so.6( libc_start_main+0xf0) [0x7f74074d7830]./a.out() [0x403589] 3. Use addr2line to find out the line in which the error occurs. $ addr2line -e a.out 0x403b1a /home/gruetsch/./unalloc.cuf:30

39 subroutine addusforce_g() DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1 DO ig = 1, ngm cfac = vg(ig, is) * CONJG(eigts1(mill(1,ig),na) * & eigts2(mill(2,ig),na) * & eigts3(mill(3,ig),na) ) aux1(ig, nb, 1) = g(1, ig) * cfac aux1(ig, nb, 2) = g(2, ig) * cfac aux1(ig, nb, 3) = g(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm, & 2*ngm, aux1(1,1,ipol), 2*ngm, 0, & ddeeq(1,1,ipol,is), nij ) ENDDO ENDDO

40 subroutine addusforce_g() DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1 DO ig = 1, ngm cfac = vg(ig, is) * CONJG(eigts1(mill(1,ig),na) * & eigts2(mill(2,ig),na) * & eigts3(mill(3,ig),na) ) aux1(ig, nb, 1) = g(1, ig) * cfac aux1(ig, nb, 2) = g(2, ig) * cfac aux1(ig, nb, 3) = g(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm, & 2*ngm, aux1(1,1,ipol), 2*ngm, 0, & ddeeq(1,1,ipol,is), nij ) ENDDO ENDDO

41 subroutine addusforce_g() DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1!$cuf kernel do DO ig = 1, ngm cfac= vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & eigts2_d(mill_d(2,ig),na) * & eigts3_d(mill_d(3,ig),na) ) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac aux1_d(ig, nb, 2) = g_d(2, ig) * cfac aux1_d(ig, nb, 3) = g_d(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm, & 2*ngm, aux1(1,1,ipol), 2*ngm, 0, & ddeeq(1,1,ipol,is), nij ) ENDDO ENDDO

42 subroutine addusforce_g() DO is = 1, nspin_mag USE gvect, ONLY: g_d, nb = 0 DO na = 1, nat MODULE gvect(na) == nt) THEN IF (ityp REAL(DP), ALLOCATABLE :: g nb = nb + 1 REAL(DP), ALLOCATABLE, DEVICE :: g_d!$cuf kernel do DO ig = 1, ngm END MODULE cfac=gvect vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & eigts2_d(mill_d(2,ig),na) * & eigts3_d(mill_d(3,ig),na) ) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac Option aux1_d(ig, 1: nb, 2) = g_d(2, ig) * cfac ALLOCATE(g(3, ngm)); aux1_d(ig, nb, ALLOCATE(g_d(3, 3) = g_d(3, ig) ngm)) * cfac g = 1.d0 ENDDO g_dendif = g ENDDO Option 2 using F2003 source allocation: ALLOCATE(g(3, ngm)); g = 1.d0 ENDDO ALLOCATE(g_d, source = g)

43 subroutine addusforce_g() DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1!$cuf kernel do DO ig = 1, ngm cfac= vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & eigts2_d(mill_d(2,ig),na) * & eigts3_d(mill_d(3,ig),na) ) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac aux1_d(ig, nb, 2) = g_d(2, ig) * cfac aux1_d(ig, nb, 3) = g_d(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm, & 2*ngm, aux1(1,1,ipol), 2*ngm, 0, & ddeeq(1,1,ipol,is), nij ) ENDDO ENDDO

44 subroutine force_corr (forcescc) USE wavefunctions_module, ONLY : psic USE gvect, ONLY : nl, g, gl, igtongl do na = 1, nat if (nt.eq.ityp (na) ) then tau1 = tau(1,na); tau2 = tau(2,na); tau3 = tau(3,na) fscc1 = 0.d0; fscc2 = 0.d0; fscc3 = 0.d0 do ig = gstart, ngm arg = (g (1, ig) * tau1 + g (2, ig) * tau2 + & g (3, ig) * tau3 ) * tpi tmpf = fact * rhocgnt (igtongl(ig) ) * & tpiba * DBLE(DCMPLX(sin(arg), cos(arg)) * & CONJG(psic(nl(ig)))) fscc1 = fscc1 + tmpf * g(1,ig) fscc2 = fscc2 + tmpf * g(2,ig) fscc3 = fscc3 + tmpf * g(3,ig) enddo forcescc(1,na) = forcescc(1,na) + fscc1 forcescc(2,na) = forcescc(2,na) + fscc2 forcescc(3,na) = forcescc(3,na) + fscc3 endif enddo

45 subroutine force_corr (forcescc) USE wavefunctions_module, ONLY : psic=>psic_d USE gvect, ONLY : nl=>nl_d, g=>g_d, gl=>gl_d, igtongl=>igtongl_d do na = 1, nat if (nt.eq.ityp (na) ) then tau1 = tau(1,na); tau2 = tau(2,na); tau3 = tau(3,na) fscc1 = 0.d0; fscc2 = 0.d0; fscc3 = 0.d0!$cuf kernel do do ig = gstart, ngm arg = (g (1, ig) * tau1 + g (2, ig) * tau2 + & g (3, ig) * tau3 ) * tpi tmpf = fact * rhocgnt (igtongl(ig) ) * & tpiba * DBLE(DCMPLX(sin(arg), cos(arg)) * & CONJG(psic(nl(ig)))) fscc1 = fscc1 + tmpf * g(1,ig) fscc2 = fscc2 + tmpf * g(2,ig) fscc3 = fscc3 + tmpf * g(3,ig) enddo forcescc(1,na) = forcescc(1,na) + fscc1 forcescc(2,na) = forcescc(2,na) + fscc2 forcescc(3,na) = forcescc(3,na) + fscc3 endif enddo

46 subroutine force_corr (forcescc) USE wavefunctions_module, ONLY : psic=>psic_d USE gvect, ONLY : nl=>nl_d, g=>g_d, gl=>gl_d, igtongl=>igtongl_d do na = 1, nat if (nt.eq.ityp (na) ) then tau1 = tau(1,na); tau2 = tau(2,na); tau3 = tau(3,na) fscc1 = 0.d0; fscc2 = 0.d0; fscc3 = 0.d0 USE_CUDA!$cuf kernel do do ig = gstart, ngm arg = (g (1, ig) * tau1 + g (2, ig) * tau2 + & g (3, ig) * tau3 ) * tpi tmpf = fact * rhocgnt (igtongl(ig) ) * & tpiba * DBLE(DCMPLX(sin(arg), cos(arg)) * & CONJG(psic(nl(ig)))) fscc1 = fscc1 + tmpf * g(1,ig) fscc2 = fscc2 + tmpf * g(2,ig) fscc3 = fscc3 + tmpf * g(3,ig) enddo forcescc(1,na) = forcescc(1,na) + fscc1 forcescc(2,na) = forcescc(2,na) + fscc2 forcescc(3,na) = forcescc(3,na) + fscc3 endif enddo

47 SUBROUTINE fft_scatter_gpu_batch_a() npp = dfft%npp(me); nnp = dfft%nnp tscale = 1.0_DP / (dfft%nr1 * dfft%nr2) DO iter = 1, dfft%nproc IF(IAND(nprocp, nprocp-1) == 0) THEN dest = IEOR( me-1, iter-1 ) ELSE dest = MOD(me-1 + (iter-1), nprocp) ENDIF ip = dest + 1 ioff = dfft%iss(ip) nswip = dfft%nsp(ip)!$cuf kernel do(2) <<< *, *, 0, dfft%a2a_comp >>> DO cuf_j = 1, npp DO cuf_i = 1, nswip mc = p_ismap_d(cuf_i + ioff) it = (ip - 1) * sendsiz + (cuf_i - 1)*nppx f_aux2_d(cuf_j + it) = f_aux_d(mc + (cuf_j - 1) * nnp) * & tscale ENDDO ENDDO ENDDO

49 use cublas integer :: m, n, k real(8) :: alpha, beta real(8) :: a(m,k), b(k,n), c(m,n) real(8),device :: a_d(m,k), b_d(k,n), c_d(m,n)! DGEMM using linked CPU library call DGEMM( N, N, m, n, k, alpha, a, m, b, k, & beta, c, m)! DGEMM using CUBLAS call DGEMM( N, N, m, n, k, alpha, a_d, m, b_d, k, & beta, c_d, m)

50 subroutine addusforce_g() DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1!$cuf kernel do DO ig = 1, ngm cfac= vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & eigts2_d(mill_d(2,ig),na) * & eigts3_d(mill_d(3,ig),na) ) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac aux1_d(ig, nb, 2) = g_d(2, ig) * cfac aux1_d(ig, nb, 3) = g_d(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm, & 2*ngm, aux1(1,1,ipol), 2*ngm, 0, & ddeeq(1,1,ipol,is), nij ) ENDDO ENDDO

51 subroutine addusforce_g() use cublas DO is = 1, nspin_mag nb = 0 DO na = 1, nat IF (ityp (na) == nt) THEN nb = nb + 1!$cuf kernel do DO ig = 1, ngm cfac= vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & eigts2_d(mill_d(2,ig),na) * & eigts3_d(mill_d(3,ig),na) ) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac aux1_d(ig, nb, 2) = g_d(2, ig) * cfac aux1_d(ig, nb, 3) = g_d(3, ig) * cfac ENDDO ENDIF ENDDO DO ipol = 1, 3 CALL DGEMM( 'C', 'N', nij, nab, 2*ngm, fact, qgm_d, & 2*ngm, aux1_d(1,1,ipol), 2*ngm, 0, & ddeeq_d(1,1,ipol,is), nij ) ENDDO ENDDO

52 SUBROUTINE cft_1z_cpu() IF (isign < 0) THEN CALL FFT_Z_STICK(fw_planz( ip), c(1), ldz, nsl) tscale = 1.0_DP / nz cout( 1 : ldz * nsl ) = c( 1 : ldz * nsl ) * tscale ELSE IF (isign > 0) THEN CALL FFT_Z_STICK(bw_planz( ip), c(1), ldz, nsl) cout( 1 : ldz * nsl ) = c( 1 : ldz * nsl ) END IF

53 SUBROUTINE cft_1z_gpu() USE cufft IF (isign < 0) THEN istat = cufftexecz2z(cufft_planz(ip), c(1), c(1), & CUFFT_FORWARD) tscale = 1.0_DP / nz!$cuf kernel do(1) <<<*,*,0,stream>>> DO i = 1, ldz * nsl cout(i) = c(i) * tscale END DO ELSE IF (isign > 0) THEN istat = cufftexecz2z(cufft_planz(ip), c(1), cout(1), & CUFFT_INVERSE ) END IF

54 Use iso_c_binding interface #if (GPU_ARCH == 35)! Works for Kepler integer(c_int) function cublaszgemm3m(handle, transa, transb, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc) & bind(c, name='cublaszgemm_v2') #else! Works for Pascal, Volta, and beyond integer(c_int) function cublaszgemm3m(handle, transa, transb, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc) & bind(c, name='cublaszgemm3m') #endif iso_c_binding use cudafor use cublas_v2 type(cublashandle), value :: handle integer(c_int), value :: transa, transb, m, n, k integer(c_int), value :: lda, ldb, ldc complex(8) :: alpha, beta complex(8), device :: A(*), B(*), C(*) end function cublaszgemm3m end interface cublaszgemm3m

56 subroutine atomic_rho () do igl = gstart, ngl gx = sqrt(gl(igl)) * tpiba do ir = 1, msh if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo call simpson (msh, aux, rgrid(nt)%rab, rhocgnt(igl)) enddo

57 simpson subroutine atomic_rho () do igl = gstart, ngl gx = sqrt(gl(igl)) * tpiba do ir = 1, msh rhocgnt(igl) if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo call simpson (msh, aux, rgrid(nt)%rab, rhocgnt(igl)) enddo

58 simpson subroutine atomic_rho () do igl = gstart, ngl gx = sqrt(gl(igl)) * tpiba do ir = 1, msh rhocgnt(igl) if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo rsum = 0.d0 do i = 2, msh-1, 2 rsum = rsum + aux(i-1) * rgrid(nt)%rab(i-1) + 4.0d0 * aux(i) * rgrid(nt)%rab(i) + aux(i+1) * rgrid(nt)%rab(i+1) end do rhocgnt(ngl) = rsum / 3.d0 enddo

59 subroutine atomic_rho () do igl = gstart, ngl gx = sqrt(gl(igl)) * tpiba do ir = 1, msh if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo rsum = 0.d0 do i = 2, msh-1, 2 rsum = rsum + aux(i-1) * rgrid(nt)%rab(i-1) + 4.0d0 * aux(i) * rgrid(nt)%rab(i) + aux(i+1) * rgrid(nt)%rab(i+1) end do rhocgnt(ngl) = rsum / 3.d0 enddo

60 subroutine atomic_rho () do igl = gstart, ngl gx = sqrt(gl(igl)) * tpiba!$cuf kernel do do ir = 1, msh gx = sqrt(gl(igl)) * tpiba if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo rsum = 0.d0!$cuf kernel do do i = 2, msh-1, 2 rsum = rsum + aux(i-1) * rgrid(nt)%rab(i-1) + 4.0d0 * aux(i) * rgrid(nt)%rab(i) + aux(i+1) * rgrid(nt)%rab(i+1) end do rhocgnt(ngl) = rsum / 3.d0 enddo

61 subroutine atomic_rho () do igl = gstart, ngl!$cuf kernel do do ir = 1, msh gx = sqrt(gl(igl)) * tpiba if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo rsum = 0.d0!$cuf kernel do do i = 2, msh-1, 2 rsum = rsum + aux(i-1) * rgrid(nt)%rab(i-1) + 4.0d0 * aux(i) * rgrid(nt)%rab(i) + aux(i+1) * rgrid(nt)%rab(i+1) end do rhocgnt(ngl) = rsum / 3.d0 enddo

62 subroutine atomic_rho () do igl = gstart, ngl ngl msh!$cuf kernel do do ir = 1, msh gx = sqrt(gl(igl)) * tpiba if (rgrid(nt)%r(ir) < 1.0d-8) then aux(ir) = upf(nt)%rho_at(ir) else aux(ir) = upf(nt)%rho_at(ir) * sin(gx*rgrid(nt)%r(ir)) / & (rgrid(nt)%r(ir)*gx) endif enddo rsum = 0.d0!$cuf kernel do do i = 2, msh-1, 2 rsum = rsum + aux(i-1) * rgrid(nt)%rab(i-1) + 4.0d0 * aux(i) * rgrid(nt)%rab(i) + aux(i+1) * rgrid(nt)%rab(i+1) end do rhocgnt(ngl) = rsum / 3.d0 enddo

63 attributes(global) & subroutine compute_rhocgnt_gpu() tx = threadidx%x ty = threadidx%y igl = (blockidx%x - 1) * blockdim%y + ty mysum = 0.d0 do ir = tx, mesh, blockdim%x val = mysum = mysum + val end do! Reduce by warp mysum = mysum + shfl_down(mysum,1) mysum = mysum + shfl_down(mysum,2) mysum = mysum + shfl_down(mysum,4) mysum = mysum + shfl_down(mysum,8) mysum = mysum + shfl_down(mysum,16) if (tx == 1) then rhocgnt(igl) = mysum / 3.d0 endif end subroutine compute_rhocgnt_gpu

64 DO ih =1,nh DO jh = ih,nh call sub(ngm,ih,jh,..) END DO END DO ngm jh ih In sub: DO ig = 1,ngm END DO DO ih = 1,nh DO jh = ih, nh block = dim3(256,1,1) grid = dim3(ceiling(real(ngm)/block%x,1,1) call sub_g<<<grid, block>>>(ngm,ih,jh,) END DO END DO In sub_g: ig = threadidx%x + blockdim%x * (blockidx%x-1) IF (ig <= ngm) then END IF

65 DO ih =1,nh DO jh = ih,nh call sub(ngm,ih,jh,..) END DO END DO ngm jh In sub: DO ig = 1,ngm END DO block=dim3(256,1,1) grid = dim3(ceiling(real(ngm)/block%x), nh, nh) call sub_g<<<grid,block>>>(ngm,) ih In sub_g: ih = blockidx%y; jh = blockidx%z IF (ih > jh) RETURN ig = threadidx%x + blockdim%x * (blockidx%x-1) IF ( ig <= ngm) THEN END IF

66 DO ih =1,nh DO jh = ih,nh call sub(ngm,ih,jh,..) END DO END DO ngm jh In sub: DO ig = 1,ngm END DO block=dim3(256,1,1) grid = dim3(nblocks, nh, nh) call sub_g<<<grid,block>>>(ngm,) ih In sub_g: ih = blockidx%y; jh = blockidx%z IF (ih > jh) RETURN tx = threadidx%x+ blockdim%x * (blockidx%x-1) DO ig = tx, ngm, blockdim%x*griddim%x... END DO

67 cpu_gpu_interface MODULE cpu_gpu_interface.f90 DO INTERFACE is = 1, nspin_mag add_vuspsi nb = SUBROUTINE 0 add_vuspsi_cpu( lda, n, m, hpsi ) DO na = INTEGER 1, nat :: lda, n, m IF (ityp (na) == nt) THEN COMPLEX(DP) :: hpsi(:,:) nb = nb + 1 END SUBROUTINE add_vuspsi_cpu!$cuf kernel do DO USE_CUDA ig = 1, ngm #ifdef cfac= vg_d(ig, is) * CONJG(eigts1_d(mill_d(1,ig),na) * & SUBROUTINE add_vuspsi_gpu( lda, n, m, hpsi ) eigts2_d(mill_d(2,ig),na) * & INTEGER :: lda, n, m eigts3_d(mill_d(3,ig),na) ) COMPLEX(DP), DEVICE :: hpsi(:,:) aux1_d(ig, nb, 1) = g_d(1, ig) * cfac END SUBROUTINE add_vuspsi_gpu #endif aux1_d(ig, nb, 2) = g_d(2, ig) * cfac aux1_d(ig, nb, 3) = g_d(3, ig) * cfac END INTERFACE ENDDO MODULE cpu_gpu_interface ENDIF ENDDO #ifdef USE_GPU #define MY_ROUTINE(x) #else ENDDO #define MY_ROUTINE(x) #endif x##_gpu add_vuspsi.f90 x##_cpu SUBROUTINE MY_ROUTINE(add_vuspsi)( lda, n, m, hpsi )

Quantum ESPRESSO on GPU accelerated systems

Quantum ESPRESSO on GPU accelerated systems Massimiliano Fatica, Everett Phillips, Josh Romero - NVIDIA Filippo Spiga - University of Cambridge/ARM (UK) MaX International Conference, Trieste, Italy, January