d3/dd5/math__ext_8cu_source.html

// System includes

#include <stdio.h>

#include <stdlib.h>


// Device includes

#include <cuda_runtime.h>


// Neko includes

#include <neko/device/device_config.h>

#include <neko/device/cuda/check.h>

#include <neko/math/bcknd/device/device_mpi_op.h>

#include <neko/math/bcknd/device/device_mpi_reduce.h>


// Local includes

#include "math_ext_kernel.h"


extern "C" {


void cuda_copy_mask(void* a, void* b, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    copy_mask_kernel<real><<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

        (real*)a, (real*)b, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


void cuda_cadd_mask(void* a, real* c, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    cadd_mask_kernel<real><<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

        (real*)a, *c, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


void cuda_invcol1_mask(void* a, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    invcol1_mask_kernel<real>

        <<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

            (real*)a, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


void cuda_col2_mask(void* a, void* b, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    col2_mask_kernel<real><<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

        (real*)a, (real*)b, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


void cuda_col3_mask(

    void* a, void* b, void* c, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    col3_mask_kernel<real><<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

        (real*)a, (real*)b, (real*)c, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


void cuda_sub3_mask(

    void* a, void* b, void* c, int* size, int* mask, int* mask_size) {


    const dim3 nthrds(1024, 1, 1);

    const dim3 nblcks(((*mask_size) + 1024 - 1) / 1024, 1, 1);


    if (*mask_size == 0) return;

    sub3_mask_kernel<real><<<nblcks, nthrds, 0, (cudaStream_t)glb_cmd_queue>>>(

        (real*)a, (real*)b, (real*)c, *size, mask, *mask_size);

    CUDA_CHECK(cudaGetLastError());

}


}

convex_down_RAMP_mapping_apply_kernel
__global__ void convex_down_RAMP_mapping_apply_kernel(const T f_min, const T f_max, const T q, T *__restrict__ X_out_d, T *__restrict__ X_in_d, const int n)
Definition RAMP_mapping_kernel.h:44

math_ext_kernel.h

cuda_col2_mask
void cuda_col2_mask(void *a, void *b, int *size, int *mask, int *mask_size)
Definition math_ext.cu:101

cuda_invcol1_mask
void cuda_invcol1_mask(void *a, int *size, int *mask, int *mask_size)
Definition math_ext.cu:86

cuda_cadd_mask
void cuda_cadd_mask(void *a, real *c, int *size, int *mask, int *mask_size)
Definition math_ext.cu:72

cuda_col3_mask
void cuda_col3_mask(void *a, void *b, void *c, int *size, int *mask, int *mask_size)
Definition math_ext.cu:115

cuda_sub3_mask
void cuda_sub3_mask(void *a, void *b, void *c, int *size, int *mask, int *mask_size)
Definition math_ext.cu:130

cuda_copy_mask
void cuda_copy_mask(void *a, void *b, int *size, int *mask, int *mask_size)
Definition math_ext.cu:58