OpenCL NVIDIA GPU的全局存储器

全局存储器驻留在设备存储器中,并且设备存储器通过32字节、64字节或128字节存储器事务进行访问。这些存储器事务必须被自然对齐:只有32字节、64字节或128字节的存储体,与这些存储体对齐的设备存储器(即首地址为这些尺寸其中之一的倍数)才能被存储器事务读或写。
当一个warp执行一条访问全局存储器的指令时,它合并在此warp内的工作项对存储器的访问,根据每个工作项所访问的字长以及跨工作项的存储器地址的分布,将这些访问合并为一个或多个存储器事务。通常来说,有越多必要的存储器事务就有越多未被使用的字传输,使得指令吞吐被缩减。比如,如果一个32字节的存储器事务为每个工作项的4字节访问所生成,那么吞吐量就除以8(由于实践中有许多因素影响代码性能,这不能作为一个绝对的标准)。
为了最大化全局存储器吞吐,要通过以下方式来最大化合并访问是很重要的:

  1. 遵循最优访问模式;
  2. 使用满足尺寸与对齐要求的数据类型;
  3. 在某些情况下对数据进行填充,如当访问一个二维数组时,如果二维数组的行、列不是满足对齐要求的倍数,那么在外围填充0或其他不影响计算结果的数据,使得对二维数组的访问能最优。

全局存储器指令支持大小为1字节、2字节、4字节、8字节或16字节数据的读写。任一对驻留在全局存储器中数据的访问(通过一个变量或一个指针)编译为一个全局存储器指令,当且仅当数据类型为1字节、2字节、4字节、8字节或16字节大小并且数据自然对齐(即数据访问地址是该尺寸的倍数)。
如果数据大小与对齐没有被满足,那么此访存会被编译为交错访问模式的多条指令,从而阻碍了指令被充分合并。因此,推荐使用满足此要求的数据类型来访问全局存储器。
能自动满足对齐要求的内建数据类型为char、uchar、short、ushort、int、uint、long、ulong、f loat、double
对于结构体数据类型,数据大小与对齐可以通过指定其对齐属性来指示编译器使用所指定的对齐要求——attribute((aligned(对齐字节数)))。
比如:

struct S{f loat x;f loat y;}_attribute_((aligned(8)));

用结构体S所定义的变量将至少满足8字节对齐。
读任一非对齐的8字节或16字节的数据会产生不正确的结果,因此必须小心维护这些数据类型变量或数组的起始地址。

赞(1)
未经允许不得转载:极客笔记 » OpenCL NVIDIA GPU的全局存储器

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
OpenCL 基本概念
OpenCL 是什么OpenCL 平台模型OpenCL 执行模型OpenCL 上下文简介OpenCL 命令队列简介OpenCL 在设备上执行内核OpenCL 存储器区域OpenCL 存储器对象OpenCL 共享虚拟存储器OpenCL 与OpenGL
OpenCL 基础教程
OpenCL 在Windows上搭建开发环境OpenCL 在Linux上搭建开发环境OpenCL 在OS X上搭建开发环境OpenCL 第一个程序OpenCL 平台OpenCL 设备OpenCL 创建上下文OpenCL 创建命令队列OpenCL 创建Program对象OpenCL 编译Program对象OpenCL 查询和管理Program对象OpenCL 创建内核对象OpenCL 设置内核参数OpenCL 查询和管理内核对象OpenCL 执行内核OpenCL 编写内核代码OpenCL 错误处理
OpenCL C特性
OpenCL 地址空间修饰符OpenCL 函数修饰符OpenCL 对象访问修饰符OpenCL 标量数据类型OpenCL 为什么要有矢量数据类型OpenCL 矢量初始化OpenCL 读取和修改矢量分量OpenCL 运算符OpenCL 维度和工作项OpenCL 工作组OpenCL 矢量数据拷贝OpenCL 异步拷贝和预取OpenCL 数学函数OpenCL 公共函数OpenCL 几何函数OpenCL 整数函数OpenCL 关系函数OpenCL 杂项矢量函数OpenCL 同步函数OpenCL 原子函数OpenCL 内建图像读函数OpenCL 内建无采样器图像读函数OpenCL 内建图像写函数OpenCL 内建图像查询函数OpenCL 工作组函数OpenCL 内建管道读/写函数OpenCL 内建工作组管道读/写函数OpenCL 内建管道查询函数OpenCL 设备队列OpenCL Blocks语法OpenCL 设备队列相关函数OpenCL 子内核存储器可见性OpenCL 设备队列的使用示例
OpenCL 存储器对象
OpenCL 存储器对象OpenCL 分配缓冲区对象OpenCL 创建子缓冲区对象OpenCL 图像对象和采样器对象OpenCL 图像对象OpenCL 图像格式描述符OpenCL 图像描述符OpenCL 图像对象查询OpenCL 采样器对象OpenCL 主机端采样器对象OpenCL 设备端采样器对象OpenCL 图像旋转示例OpenCL 管道OpenCL 创建管道对象OpenCL 管道对象查询OpenCL 主机与设备间数据传输OpenCL 图像对象主机与设备间数据拷贝OpenCL 缓冲区对象数据填充OpenCL 图像对象数据填充OpenCL 缓冲区对象间数据传输OpenCL 图像对象和缓冲区对象间数据拷贝OpenCL 缓冲区对象映射OpenCL 图像对象映射OpenCL 解映射OpenCL 共享虚拟存储器OpenCL SVM缓冲创建与释放OpenCL SVM缓冲映射与解映射OpenCL SVM缓冲填充与拷贝OpenCL SVM类型OpenCL SVM特性OpenCL 共享虚拟存储器示例OpenCL 存储器一致性模型OpenCL 存储器次序规则OpenCL 原子操作的存储器次序规则OpenCL 栅栏操作的存储器次序规则OpenCL 工作组函数的存储器次序规则OpenCL 主机端与设备端命令的存储器次序规则OpenCL 关于存储器次序在实际OpenCL计算设备中的实现
OpenCL 同步及事件机制
OpenCL 同步及事件机制OpenCL 主机端的OpenCL同步OpenCL OpenCL事件机制OpenCL 对OpenCL事件的标记和栅栏OpenCL 内核程序中的同步OpenCL 工作组内同步OpenCL 原子操作OpenCL 1.2中的原子操作OpenCL 2.0中的原子操作OpenCL 局部存储器与全局存储器间的异步拷贝OpenCL 工作组间同步
OpenCL 与OpenGL互操作
OpenCL 与OpenGL互操作OpenCL 从一个OpenGL上下文来创建OpenCL上下文OpenCL 使用OpenGL共享的缓存对象OpenCL 使用OpenGL纹理数据OpenCL 共享OpenGL渲染缓存OpenCL 从一个OpenCL存储器对象查询OpenGL对象信息OpenCL 访问共享对象的OpenCL与OpenGL之间的同步OpenCL AMD Cayman架构GPUOpenCL AMD GCN架构的GPUOpenCL NVIDIA CUDA兼容的GPUOpenCL NVIDIA GPU架构的执行模型OpenCL NVIDIA GPU的全局存储器OpenCL NVIDIA GPU的局部存储器OpenCL ARM Mali GPU硬件架构OpenCL ARM Mali GPU存储器层次OpenCL ARM Mali GPU OpenCL映射