OpenCL 主机端的OpenCL同步

主机端的同步主要是对命令队列中的OpenCL命令进行同步。我们在第3章中已经谈到了一些clEnqueue系的API,该系列API用于将特定的命令放入命令队列供OpenCL系统进行排队执行。默认情况下,命令队列是顺序执行命令的。若当前OpenCL环境支持无序执行命令,使用CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE属性则可以在创建命令队列时指定命令,可以不按照次序执行。

在默认情况下,虽然命令的执行已经是按照次序了,不过OpenCL的实现中往往是在发射了第一条命令之后不等它执行完,而继续发射第二条命令进行执行。所以,有一些clEnqueue系命令含有一个布尔类型参数用来指定此命令是否阻塞。如果是CL_TRUE,那么这个命令操作时不会立刻返回当前的clEnqueue的调用,而是等该操作完全执行完毕之后才会返回。这样就保证了这些命令对于其后续的命令而言是按前后次序顺序完成执行的。
OpenCL提供了clFlush函数API用于发射调用此函数之前的所有在指定命令队列中的命令。还提供了clFinish函数API用于等待调用此函数之前的所有在指定命令队列中的命令执行完成。
下面我们通过使用一个完整的代码示例来体会一下对clEnqueueWriteBuffer使用阻塞方式与非阻塞方式的效果。并且,本章后续的示例代码都将基于下面这个完整的代码加以修改。而输出结果则基于OS X 10.10.3,Intel Core i7 4650U,Intel HD Graphics5000的计算环境得出。编译工具是Apple LLVM 6.1,当然任何支持C99的编译器都能通过编译。这段代码也完全可以在Linux环境下通过编译运行。


#ifdef _APPLE_
#include 〈OpenCL/opencl.h>
#else
#include 〈CL/cl.h>
#endif
#include 〈stdio.h>
#include 〈string.h>
#include 〈stdlib.h>
#include 〈sys/time.h>
int main(void)
{
    cl_int ret;
    cl_platform_id platform_id = NULL;
    cl_device_id device_id = NULL;
    cl_context context = NULL;
    cl_command_queue command_queue = NULL;
    cl_mem src1MemObj = NULL;
    cl_mem src2MemObj = NULL;
    cl_mem dstMemObj = NULL;
    char *kernelSource = NULL;
    cl_program program = NULL;
    cl_kernel kernel = NULL;
    int *pHostBuffer = NULL;
    int *pDeviceBuffer = NULL;
    //获得OpenCL平台
    clGetPlatformIDs(1, &platform_id, NULL);
    if(platform_id == NULL)
    {
        puts("Get OpenCL platform failed!");
        goto FINISH;
    }
    //获得OpenCL计算设备,这里使用GPU类型的计算设备
    clGetDeviceIDs(platform_id, CL_DEVICE_TYPE_GPU, 1, &device_id,
                      NULL);
    if(device_id == NULL)
{
        puts("No GPU available as a compute device!");
        goto FINISH;
    }
    //根据设备ID来创建上下文
    context = clCreateContext(NULL, 1, &device_id, NULL, NULL,&ret);
    if(context == NULL)
    {
        puts("Context not established!");
        goto FINISH;
    }
    //根据上下文与设备ID来创建命令队列
    command_queue = clCreateCommandQueue(context, device_id, 0,
                                                &ret);
    if(command_queue == NULL)
    {
        puts("Command queue cannot be created!");
        goto FINISH;
    }
    /*为了能比较好地观察结果,我们分配64MB的存储空间,
将主机端的数据传递到设备端*/
const size_t contentLength = sizeof(int) * 16 * 1024 * 1024;
    src1MemObj = clCreateBuffer(context, CL_MEM_READ_ONLY,
                                      contentLength, NULL, &ret);
    if(src1MemObj == NULL)
    {
        puts("Source1 memory object failed to create!");
        goto FINISH;
    }
    src2MemObj = clCreateBuffer(context, CL_MEM_READ_ONLY,
                                      contentLength, NULL, &ret);
    if(src2MemObj == NULL)
    {
        puts("Source2 memory object failed to create!");
        goto FINISH;
    }
    //在主机端分配并初始化64MB的缓存数据
    pHostBuffer = malloc(contentLength);
    for(int i = 0; i 〈 contentLength / sizeof(int); i++)
        pHostBuffer[i] = i;
    //这里定义一对时间戳来记录clEnqueueWriteBuffer所花费的时间
    struct timeval tsBegin, tsEnd;
    long t1Duration, t2Duration;
    gettimeofday(&tsBegin, NULL);
    /*我们先使用阻塞方式传递数据来观察结果。
两个数据源都用同一个主机端的存储地址来传送数据*/
ret = clEnqueueWriteBuffer(command_queue, src1MemObj, CL_TRUE,0,
                                contentLength, pHostBuffer, 0,
                                NULL,NULL);
    if(ret != CL_SUCCESS)
    {
        puts("Data1 transfer failed");
        goto FINISH;
    }
    gettimeofday(&tsEnd, NULL);
    t1Duration = 1000000L * (tsEnd.tv_sec - tsBegin.tv_sec ) +
                  (tsEnd.tv_usec - tsBegin.tv_usec);
    //再记录第二个数据源的传输时间
    gettimeofday(&tsBegin, NULL);
    ret = clEnqueueWriteBuffer(command_queue, src2MemObj,
                                    CL_TRUE, 0,
                                    contentLength, pHostBuffer,
                                    0, NULL, NULL);
    if(ret != CL_SUCCESS)
    {
        puts("Data2 transfer failed");
        goto FINISH;
    }
    gettimeofday(&tsEnd, NULL);
    t2Duration = 1000000L * (tsEnd.tv_sec - tsBegin.tv_sec ) +
                  (tsEnd.tv_usec - tsBegin.tv_usec);
    printf("t1 duration: %ld, t2 duration: %ld", t1Duration,
        t2Duration);
FINISH:
    if(pHostBuffer != NULL)
free(pHostBuffer);
    if(pDeviceBuffer != NULL)
        free(pDeviceBuffer);
    if(kernelSource != NULL)
        free(kernelSource);
    if(src1MemObj != NULL)
        clReleaseMemObject(src1MemObj);
    if(src2MemObj != NULL)
        clReleaseMemObject(src2MemObj);
    if(dstMemObj != NULL)
        clReleaseMemObject(dstMemObj);
    if(kernel != NULL)
        clReleaseKernel(kernel);
    if(program != NULL)
        clReleaseProgram(program);
    if(command_queue != NULL)
        clReleaseCommandQueue(command_queue);
    if(context != NULL)
        clReleaseContext(context);
    puts("Program complete");
    return 0;
}

上述代码使用了阻塞方式来调用clEnqueueWriteBuffer函数API,前后两次调用所花费的时间分别为21 813微秒和26 155微秒。在调用后一个clEnqueueWriteBuffer函数之前,前一次调用已经确保将数据从主机端完整地送到了设备端的存储空间。
下面,我们将上述两个clEnqueueWriteBuffer函数调用中的第3个参数由CL_TRUE改为CL_FALSE,来观察结果。结果显示前后两次调用所花费的时间分别为140微秒和28微秒。与阻塞方式相比,非阻塞方式所花费的时间大幅减少。但是各位读者别忘了,采用非阻塞方式虽然OpenCL系统很快将执行权还给了当前线程,但是数据传输的作业未必已经完成,往往还处于进行中的状态。那么当我们采用非阻塞的模式来传输数据时如何确保该命令完全执行完成呢?直接调用clFinish函数进行同步是一个方法。还有一个方法就是我们下面介绍的,使用OpenCL的事件机制。

赞(1)
未经允许不得转载:极客笔记 » OpenCL 主机端的OpenCL同步

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
OpenCL 基本概念
OpenCL 是什么OpenCL 平台模型OpenCL 执行模型OpenCL 上下文简介OpenCL 命令队列简介OpenCL 在设备上执行内核OpenCL 存储器区域OpenCL 存储器对象OpenCL 共享虚拟存储器OpenCL 与OpenGL
OpenCL 基础教程
OpenCL 在Windows上搭建开发环境OpenCL 在Linux上搭建开发环境OpenCL 在OS X上搭建开发环境OpenCL 第一个程序OpenCL 平台OpenCL 设备OpenCL 创建上下文OpenCL 创建命令队列OpenCL 创建Program对象OpenCL 编译Program对象OpenCL 查询和管理Program对象OpenCL 创建内核对象OpenCL 设置内核参数OpenCL 查询和管理内核对象OpenCL 执行内核OpenCL 编写内核代码OpenCL 错误处理
OpenCL C特性
OpenCL 地址空间修饰符OpenCL 函数修饰符OpenCL 对象访问修饰符OpenCL 标量数据类型OpenCL 为什么要有矢量数据类型OpenCL 矢量初始化OpenCL 读取和修改矢量分量OpenCL 运算符OpenCL 维度和工作项OpenCL 工作组OpenCL 矢量数据拷贝OpenCL 异步拷贝和预取OpenCL 数学函数OpenCL 公共函数OpenCL 几何函数OpenCL 整数函数OpenCL 关系函数OpenCL 杂项矢量函数OpenCL 同步函数OpenCL 原子函数OpenCL 内建图像读函数OpenCL 内建无采样器图像读函数OpenCL 内建图像写函数OpenCL 内建图像查询函数OpenCL 工作组函数OpenCL 内建管道读/写函数OpenCL 内建工作组管道读/写函数OpenCL 内建管道查询函数OpenCL 设备队列OpenCL Blocks语法OpenCL 设备队列相关函数OpenCL 子内核存储器可见性OpenCL 设备队列的使用示例
OpenCL 存储器对象
OpenCL 存储器对象OpenCL 分配缓冲区对象OpenCL 创建子缓冲区对象OpenCL 图像对象和采样器对象OpenCL 图像对象OpenCL 图像格式描述符OpenCL 图像描述符OpenCL 图像对象查询OpenCL 采样器对象OpenCL 主机端采样器对象OpenCL 设备端采样器对象OpenCL 图像旋转示例OpenCL 管道OpenCL 创建管道对象OpenCL 管道对象查询OpenCL 主机与设备间数据传输OpenCL 图像对象主机与设备间数据拷贝OpenCL 缓冲区对象数据填充OpenCL 图像对象数据填充OpenCL 缓冲区对象间数据传输OpenCL 图像对象和缓冲区对象间数据拷贝OpenCL 缓冲区对象映射OpenCL 图像对象映射OpenCL 解映射OpenCL 共享虚拟存储器OpenCL SVM缓冲创建与释放OpenCL SVM缓冲映射与解映射OpenCL SVM缓冲填充与拷贝OpenCL SVM类型OpenCL SVM特性OpenCL 共享虚拟存储器示例OpenCL 存储器一致性模型OpenCL 存储器次序规则OpenCL 原子操作的存储器次序规则OpenCL 栅栏操作的存储器次序规则OpenCL 工作组函数的存储器次序规则OpenCL 主机端与设备端命令的存储器次序规则OpenCL 关于存储器次序在实际OpenCL计算设备中的实现
OpenCL 同步及事件机制
OpenCL 同步及事件机制OpenCL 主机端的OpenCL同步OpenCL OpenCL事件机制OpenCL 对OpenCL事件的标记和栅栏OpenCL 内核程序中的同步OpenCL 工作组内同步OpenCL 原子操作OpenCL 1.2中的原子操作OpenCL 2.0中的原子操作OpenCL 局部存储器与全局存储器间的异步拷贝OpenCL 工作组间同步
OpenCL 与OpenGL互操作
OpenCL 与OpenGL互操作OpenCL 从一个OpenGL上下文来创建OpenCL上下文OpenCL 使用OpenGL共享的缓存对象OpenCL 使用OpenGL纹理数据OpenCL 共享OpenGL渲染缓存OpenCL 从一个OpenCL存储器对象查询OpenGL对象信息OpenCL 访问共享对象的OpenCL与OpenGL之间的同步OpenCL AMD Cayman架构GPUOpenCL AMD GCN架构的GPUOpenCL NVIDIA CUDA兼容的GPUOpenCL NVIDIA GPU架构的执行模型OpenCL NVIDIA GPU的全局存储器OpenCL NVIDIA GPU的局部存储器OpenCL ARM Mali GPU硬件架构OpenCL ARM Mali GPU存储器层次OpenCL ARM Mali GPU OpenCL映射