AMD OpenCL SDK在Linux上的使用|极客笔记

AMD OpenCL SDK在Linux上的使用

简介

OpenCL（Open Computing Language）是一种用于并行计算的开放标准，允许 CPU 和 GPU 之间共享计算任务。AMD OpenCL SDK 是为 AMD 显卡优化的 OpenCL 平台。本文将详细介绍如何在 Linux 系统上安装和配置 AMD OpenCL SDK，并提供一些简单的示例代码。

安装AMD OpenCL SDK

在开始之前，确保你已经安装了适用于你的 AMD 显卡的最新驱动程序。

步骤1：下载AMD APP SDK

首先，访问 AMD 官方网站（https://developer.amd.com/amd-accelerated-parallel-processing-app-sdk/）下载适用于 Linux 的 AMD APP SDK。选择适合你系统的版本并下载安装包。

步骤2：安装AMD APP SDK

下载完成后，在终端中进入下载目录，并执行以下命令安装 AMD APP SDK：

tar xvf AMD-APP-SDKInstaller-*.*
sudo ./AMD-APP-SDKInstaller-*.*-lnx64.sh

根据提示完成安装。

步骤3：配置环境变量

打开 /etc/profile 文件，在文件末尾添加以下内容：

export OPENCL_VENDOR_PATH=/opt/AMDAPPSDK-3.0/etc/OpenCL/vendors/
export LD_LIBRARY_PATH=/opt/AMDAPPSDK-3.0/lib/x86_64/

保存并退出，然后执行以下命令使配置生效：

source /etc/profile

编写OpenCL程序

现在，我们将演示一个简单的 OpenCL 程序，计算两个向量的加法。首先在终端中创建一个名为 vector_add.c 的 C 语言源代码文件，并输入以下代码：

#include <CL/cl.h>
#include <stdio.h>

#define SIZE 1024

int main() {
    cl_platform_id platform_id = NULL;
    cl_device_id device_id = NULL;
    cl_context context = NULL;
    cl_command_queue command_queue = NULL;
    cl_mem bufA, bufB, bufC;
    cl_program program = NULL;
    cl_kernel kernel = NULL;
    cl_uint ret_num_devices;
    cl_uint ret_num_platforms;
    cl_int ret;

    float *A = (float*)malloc(sizeof(float) * SIZE);
    float *B = (float*)malloc(sizeof(float) * SIZE);
    float *C = (float*)malloc(sizeof(float) * SIZE);

    for (int i = 0; i < SIZE; i++) {
        A[i] = i;
        B[i] = SIZE - i;
    }

    ret = clGetPlatformIDs(1, &platform_id, &ret_num_platforms);
    ret = clGetDeviceIDs(platform_id, CL_DEVICE_TYPE_DEFAULT, 1, &device_id, &ret_num_devices);

    context = clCreateContext(NULL, 1, &device_id, NULL, NULL, &ret);
    command_queue = clCreateCommandQueue(context, device_id, 0, &ret);

    bufA = clCreateBuffer(context, CL_MEM_READ_ONLY, SIZE * sizeof(float), NULL, &ret);
    bufB = clCreateBuffer(context, CL_MEM_READ_ONLY, SIZE * sizeof(float), NULL, &ret);
    bufC = clCreateBuffer(context, CL_MEM_WRITE_ONLY, SIZE * sizeof(float), NULL, &ret);

    clEnqueueWriteBuffer(command_queue, bufA, CL_TRUE, 0, SIZE * sizeof(float), A, 0, NULL, NULL);
    clEnqueueWriteBuffer(command_queue, bufB, CL_TRUE, 0, SIZE * sizeof(float), B, 0, NULL, NULL);

    FILE *fp = fopen("vector_add_kernel.cl", "r");
    fseek(fp, 0, SEEK_END);
    size_t src_size = ftell(fp);
    rewind(fp);
    char *src = (char*)malloc(src_size + 1);
    fread(src, 1, src_size, fp);
    src[src_size] = '\0';
    fclose(fp);

    program = clCreateProgramWithSource(context, 1, (const char**)&src, &src_size, &ret);
    ret = clBuildProgram(program, 1, &device_id, NULL, NULL, NULL);
    kernel = clCreateKernel(program, "vector_add", &ret);

    clSetKernelArg(kernel, 0, sizeof(cl_mem), &bufA);
    clSetKernelArg(kernel, 1, sizeof(cl_mem), &bufB);
    clSetKernelArg(kernel, 2, sizeof(cl_mem), &bufC);

    size_t global_work_size = SIZE;
    ret = clEnqueueNDRangeKernel(command_queue, kernel, 1, NULL, &global_work_size, NULL, 0, NULL, NULL);

    clEnqueueReadBuffer(command_queue, bufC, CL_TRUE, 0, SIZE * sizeof(float), C, 0, NULL, NULL);

    for (int i = 0; i < SIZE; i++) {
        printf("%f + %f = %f\n", A[i], B[i], C[i]);
    }

    clReleaseMemObject(bufA);
    clReleaseMemObject(bufB);
    clReleaseMemObject(bufC);
    clReleaseProgram(program);
    clReleaseKernel(kernel);
    clReleaseCommandQueue(command_queue);
    clReleaseContext(context);

    free(A);
    free(B);
    free(C);

    return 0;
}

然后在同一目录下创建一个名为 vector_add_kernel.cl 的 OpenCL 内核代码文件，并输入以下代码：

kernel void vector_add(global const float* A, global const float* B, global float* C) {
    int gid = get_global_id(0);
    C[gid] = A[gid] + B[gid];
}