OpenCL NVIDIA GPU的局部存储器

由于NVIDIA的局部存储器(shared memory)在片上,因此它具有比全局存储器更大的带宽,更低的延迟。
为了实现高带宽,局部存储器被划分为相同大小的存储器模块,称为存储体(bank,与AMD GPU上的LDS的存储体概念相同),所有存储体能被同时访问。任一由n个地址所做的读写请求如果落在独立的存储器存储体中,那么这些请求可以被同时服务,这样就能产生n倍于单一模块访问的带宽。然而,如果一次存储器请求的两个地址落在同一存储器存储体,那么就会造成冲突,并且访问将会被串行执行。硬件将一个带有存储体冲突的存储器请求分割成若干次独立的无冲突请求,那么所减少的吞吐就是独立的存储器请求次数的倍数。如果独立存储器请求次数为n,那么初始的存储器请求被称为引发了n路存储体冲突。
要获得最大化共享存储器的性能,就需要了解有多少存储器地址映射到存储器存储体。在Maxwell架构中,共享存储器含有32个存储体,相继连续的32位字映射到相继连续的存储体(也就是说,每一个存储体为4字节长度)。每个存储体每个时钟周期具有32位的带宽。对一个warp的一次共享存储器请求在同一个32位字地址之内的任一地址两个工作项之间并不会产生存储体冲突。也就是说,在一个warp内的两个工作项如果访问了同一个共享存储器地址(读写1字节、2字节或4字节数据),不会引发存储体冲突。在这种情况下,对于读访问,该字被广播到请求工作项并且用于写访问,每个地址仅由其中一个工作项来写(具体由哪个线程来写是不确定的)。关于局部存储器的存储体冲突情况其实与AMD GCN架构的GPU类似。

赞(0)
未经允许不得转载:极客笔记 » OpenCL NVIDIA GPU的局部存储器
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址