OpenCL 是什么|极客笔记

OpenCL全称为Open Computing Language（开放计算语言），先由Apple设计，后来交由Khronos Group维护，是异构平台并行编程的开放的标准，也是一个编程框架。

什么是OpenCL

Khronos Group是一个非盈利性技术组织，维护着多个开放的工业标准，并且得到了业界的广泛支持。OpenCL的设计借鉴了CUDA的成功经验，并尽可能地支持多核CPU、GPU或其他加速器。

OpenCL不但支持数据并行，还支持任务并行。同时OpenCL内建了多GPU并行的支持。这使得OpenCL的应用范围比CUDA广。为了能适用于一些更低端的嵌入式设备（如DSP+单片机这种环境），OpenCL API基于纯C语言进行编写，所以OpenCL API的函数名比较长，参数也比较多（因为不支持函数重载），因此函数名相对难以熟记。不过，借助像Xcode、Visual Studio等现代化的集成开发环境，利用代码智能感知自动补全，其实开发人员也不需要刻意去死背OpenCL的API。

OpenCL覆盖的领域不但包括GPU，还包括其他的多种处理器芯片。到现在为止，支持OpenCL的硬件主要局限在CPU、GPU、DSP和FPGA上，目前在桌面端和服务器端提供OpenCL开发环境的主要有Apple、NVIDIA、AMD、ARM和Intel，其中Apple提供了一个独立的OpenCL框架并与自家的OSX系统完整地融合在一起；

NVIDIA和AMD都提供了基于自家GPU的OpenCL在Windows和Linux上的实现，而AMD和Intel提供了基于各自CPU在Windows和Linux上的OpenCL实现。目前除了OS X系统，NVDIA、AMD与Intel提供的OpenCL实现都不约而同地不支持自家产品以外的产品。由于硬件的不同，为了写出性能优异的代码，可能需要为不同的平台做相应的优化，这会对可移植性造成影响，这个需要权衡。

OpenCL包含两个部分

一是OpenCL C语言（OpenCL 2.1将开始使用OpenCL C++作为内核编程语言）和主机端API
二是硬件架构的抽象。

为了使C程序员能够方便简单地学习OpenCL，OpenCL只是给C11进行了非常小的扩展，以提供控制并行计算设备的API以及一些声明计算内核的能力。软件开发人员可以利用OpenCL开发并行程序，并且可获得比较好的在多种设备上运行的可移植性。

为了使得OpenCL程序能够在各种硬件平台上运行，OpenCL提供了一个硬件平台层。同时各种不同设备上的存储器并不相同，相应地，OpenCL提供了一个存储器抽象模型。与CUDA相似，OpenCL还提供了执行模型和编程模型。

OpenCL不但包括一门编程语言，还包括一个完整的并行编程框架，通过编程语言、API以及运行时系统来支持软件在整个平台上的运行。

相比CUDA，OpenCL的优点在于它提供了一种能够在不同平台上可移植的编程方式，另外其原生支持的多设备并行也是一大亮点。

OpenCL标准

OpenCL标准分为四部分，每一部分都用“模型”来定义。这里先简单的介绍一下，之后的章节中会进行详细的介绍：

平台模型：指定一个host处理器，用于任务的调度。以及一个或多个device处理器，用于执行OpenCL任务(OpenCL C Kernel)。这里将硬件抽象成了对应的设备(host或device)。

执行模型：定义了OpenCL在host上运行的环境应该如何配置，以及host如何指定设备执行某项工作。这里就包括host运行的环境，host-device交互的机制，以及配置内核时使用到的并发模型。并发模型定义了如何将算法分解成OpenCL工作项和工作组。

内核编程模型：定义了并发模型如何映射到实际物理硬件。

内存模型：定义了内存对象的类型，并且抽象了内存层次，这样内核就不用了解其使用内存的实际架构。其也包括内存排序的要求，并且选择性支持host和device的共享虚拟内存。

通常情况下，OpenCL实现的执行平台包括一个x86 CPU主处理器，和一个GPU设备作为加速器。主处理器会将内核放置在GPU上运行，并且发出指令让GPU按照某个特定的并行方式进行执行。内核使用到的内存数据都由编程者依据层级内存模型分配或开辟。运行时和驱动层会将抽象的内存区域映射到物理内存层面。最后，由GPU开辟硬件线程来对内核进行执行，并且将每个线程映射到对应的硬件单元上。这些模型的细节将会在之后进行详细的讨论。

什么是OpenCL

2008年，苹果公司向Khronos Group提交了一份关于跨平台计算框架的草案，该草案由苹果公司开发，并与AMD、IBM、Intel和NVIDIA公司合作逐步完善。这个跨平台计算框架就是OpenCL（Open Computing Language，开放计算语言）。2008年12月8日，OpenCL 1.0技术规范发布。2010年6月14日，OpenCL 1.1发布。2011年11月19日，OpenCL 1.2发布。2013年11月19日，OpenCL 2.0发布。

OpenCL是一个为异构并行计算平台编写程序的工业标准，此异构计算平台可映射到CPU、GPU、DSP和FPGA等计算设备。OpenCL提供了底层硬件结构的抽象模型，旨在提供一个通用的开放API，既减轻开发人员的编程难度，又让开发人员能够写出高效可移植代码。例如，使用OpenCL，开发人员可以编写在GPU上运行的通用计算程序，而无须将其算法映射到OpenGL或DirectX的3D图形API上。

为了描述OpenCL设计的核心，Khronos Group将OpenCL异构并行计算架构划分为：