OpenCL NVIDIA GPU架构的执行模型

下面仍然针对NVIDIA当前最新的Maxwell架构GPU谈谈其执行模型。NVIDIA GPU架构由一组可扩展的多线程流处理器(SM)构成。当一个OpenCL程序在主机端调用一个内核程序NDRange执行时,工作组上的每个线程块(对应于AMD GPU的wavefront,只不过NVIDIA GPU中的一个线程块由32个连续的工作项构成)会被枚举,然后根据当前执行可用资源等情况分发到SM上。一个线程块中的所有工作项在一个SM上并发执行,并且在一个SM上可同时并发执行多个线程块。当一个SM上执行的线程块完成执行时,新的线程块能在被腾出来的SM上启动执行。这一点与AMD GPU的工作组调度执行也非常类似。
一个SM被设计为并发执行上百个工作项。为了要管理如此大量的工作项,SM引入了称为SIMT(单指令多线程)的独特架构。在单个线程内指令被流水线化管理并利用了指令级并行,并且广泛地通过硬件并发多线程机制利用线程级并行。当然,GPU与CPU不一样,它不包含分支预测,也没有投机执行引擎。
一个SM以32个并行线程(即工作项)为一单位创建、管理、调度以及执行这些线程,这一单位称为warp。组成一个warp的所有工作项一起在同一个程序地址处开始执行,但是它们具有各自的指令地址计数器以及寄存器状态,从而对于分支和执行都是相互独立的。
一个warp一次执行一条公共的指令,所以当一个warp的32个工作项走同一条执行路径时就能实现完整的效果。如果一个warp的工作项由于数据依赖而分岔到不同的条件分支,那么该warp会串行地执行每条所要走的分支路径,对于不在该路径上的工作项会禁止其执行,当所有路径都完成后,这些工作项会重新汇合到同一条执行路径。分支分叉只会发生在一个warp内;不同warp都是独立执行而不管它们执行一条公共的还是分叉的代码路径。
在warp上当前执行路径上的工作项被称为活跃工作项,而不在当前执行路径上的工作项被称为非活跃(禁用的)工作项。工作项处于非活动状态,可能因为它们比其他在同一warp中的工作项更早退出执行,或者是因为处于在当前warp所执行的不同分支路径上,又或者是因为它们是一个线程块最后的一些工作项,而这些工作项的个数并非warp大小的倍数。
如果由一个warp所执行的非原子指令,该指令由warp中多个工作项执行,并且写到全局存储器或局部存储器中同一个地址,那么这些工作组的写根据不同设备型号会有所不同,有些设备上这些写操作将被串行化,而有些可能直接被广播,从而使得最终写进去的内容是不确定的。
如果一个warp执行一条原子指令,那么对于该warp中多个工作项对全局存储器或局部存储器的同一地址执行读-修改-写操作时,每个读-修改-写操作依次发生并且被串行执行,但是最终访存操作发生次序是未定义的。
由一个SM所处理的每个warp的执行上下文(包括程序计数器、寄存器等)在该warp的整个生命周期内被维护着。因此,从一个执行上下文切换到另一个没有任何开销,并且在每条指令发射时,一个warp调度器选择其中一个已经准备好执行的warp执行其下一条指令(warp的活跃线程)并对那些线程发射该指令。

赞(1)
未经允许不得转载:极客笔记 » OpenCL NVIDIA GPU架构的执行模型

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
OpenCL 基本概念
OpenCL 是什么OpenCL 平台模型OpenCL 执行模型OpenCL 上下文简介OpenCL 命令队列简介OpenCL 在设备上执行内核OpenCL 存储器区域OpenCL 存储器对象OpenCL 共享虚拟存储器OpenCL 与OpenGL
OpenCL 基础教程
OpenCL 在Windows上搭建开发环境OpenCL 在Linux上搭建开发环境OpenCL 在OS X上搭建开发环境OpenCL 第一个程序OpenCL 平台OpenCL 设备OpenCL 创建上下文OpenCL 创建命令队列OpenCL 创建Program对象OpenCL 编译Program对象OpenCL 查询和管理Program对象OpenCL 创建内核对象OpenCL 设置内核参数OpenCL 查询和管理内核对象OpenCL 执行内核OpenCL 编写内核代码OpenCL 错误处理
OpenCL C特性
OpenCL 地址空间修饰符OpenCL 函数修饰符OpenCL 对象访问修饰符OpenCL 标量数据类型OpenCL 为什么要有矢量数据类型OpenCL 矢量初始化OpenCL 读取和修改矢量分量OpenCL 运算符OpenCL 维度和工作项OpenCL 工作组OpenCL 矢量数据拷贝OpenCL 异步拷贝和预取OpenCL 数学函数OpenCL 公共函数OpenCL 几何函数OpenCL 整数函数OpenCL 关系函数OpenCL 杂项矢量函数OpenCL 同步函数OpenCL 原子函数OpenCL 内建图像读函数OpenCL 内建无采样器图像读函数OpenCL 内建图像写函数OpenCL 内建图像查询函数OpenCL 工作组函数OpenCL 内建管道读/写函数OpenCL 内建工作组管道读/写函数OpenCL 内建管道查询函数OpenCL 设备队列OpenCL Blocks语法OpenCL 设备队列相关函数OpenCL 子内核存储器可见性OpenCL 设备队列的使用示例
OpenCL 存储器对象
OpenCL 存储器对象OpenCL 分配缓冲区对象OpenCL 创建子缓冲区对象OpenCL 图像对象和采样器对象OpenCL 图像对象OpenCL 图像格式描述符OpenCL 图像描述符OpenCL 图像对象查询OpenCL 采样器对象OpenCL 主机端采样器对象OpenCL 设备端采样器对象OpenCL 图像旋转示例OpenCL 管道OpenCL 创建管道对象OpenCL 管道对象查询OpenCL 主机与设备间数据传输OpenCL 图像对象主机与设备间数据拷贝OpenCL 缓冲区对象数据填充OpenCL 图像对象数据填充OpenCL 缓冲区对象间数据传输OpenCL 图像对象和缓冲区对象间数据拷贝OpenCL 缓冲区对象映射OpenCL 图像对象映射OpenCL 解映射OpenCL 共享虚拟存储器OpenCL SVM缓冲创建与释放OpenCL SVM缓冲映射与解映射OpenCL SVM缓冲填充与拷贝OpenCL SVM类型OpenCL SVM特性OpenCL 共享虚拟存储器示例OpenCL 存储器一致性模型OpenCL 存储器次序规则OpenCL 原子操作的存储器次序规则OpenCL 栅栏操作的存储器次序规则OpenCL 工作组函数的存储器次序规则OpenCL 主机端与设备端命令的存储器次序规则OpenCL 关于存储器次序在实际OpenCL计算设备中的实现
OpenCL 同步及事件机制
OpenCL 同步及事件机制OpenCL 主机端的OpenCL同步OpenCL OpenCL事件机制OpenCL 对OpenCL事件的标记和栅栏OpenCL 内核程序中的同步OpenCL 工作组内同步OpenCL 原子操作OpenCL 1.2中的原子操作OpenCL 2.0中的原子操作OpenCL 局部存储器与全局存储器间的异步拷贝OpenCL 工作组间同步
OpenCL 与OpenGL互操作
OpenCL 与OpenGL互操作OpenCL 从一个OpenGL上下文来创建OpenCL上下文OpenCL 使用OpenGL共享的缓存对象OpenCL 使用OpenGL纹理数据OpenCL 共享OpenGL渲染缓存OpenCL 从一个OpenCL存储器对象查询OpenGL对象信息OpenCL 访问共享对象的OpenCL与OpenGL之间的同步OpenCL AMD Cayman架构GPUOpenCL AMD GCN架构的GPUOpenCL NVIDIA CUDA兼容的GPUOpenCL NVIDIA GPU架构的执行模型OpenCL NVIDIA GPU的全局存储器OpenCL NVIDIA GPU的局部存储器OpenCL ARM Mali GPU硬件架构OpenCL ARM Mali GPU存储器层次OpenCL ARM Mali GPU OpenCL映射