並列プログラミングの概念: CUDAとOpenCL - Yuri Ardila

同じ機械、同じCPU、同じGPU、同じプログラミング言語で、

自分のプログラムがもっと高速に実行できること、見たくありませんか？

最近、多くの並列プログラミングのフレームワークが登場してきている。世界中のプログラマが、使いやすさの面をかんがえて、 Python、Ruby、Javascriptといったスクリプト言語のラッパも開発されて、GitHubとかに載ってたりします。

Haskell: FFI binding to the CUDA interface for programming NVIDIA GPUs
Ruby: SGC-Ruby-CUDA
Python: PyOpenCL

未だに並列プログラミングを知りませんといった方々には、並列プログラミングをやって始めませんか？

まず、NVIDIA社が開発したCUDAアーキテクチャ。シンプルで使いやすいと思います。それに、CUDAのSDKに付いてくるサンプルの数も豊富にあります。もちろん、サンプルといっても、初級のレベルから最上級までのレベルが用意されています。ただ単純にCUDAのAPIの使い方だけではなく、並列プログラミングの手順まで教えてくれたりするので、あらかじめ予習するのがお勧めです。

昔は、CUDAのアーキテクチャとSDKは（超）不便ではあったが、最新のやつだと間違いなく便利です。例えば、昔のやつだと、カーネルは１つしか動作できなかったり、倍精度の計算はサポートされなかったので単精度の組み合わせを使ってかなり遅かったり。サンプルも多くなかったし。最近のやつは、サンプルも豊富だし、カーネル内のカーネル呼び出し（つまり、再帰的関数呼び出し）が可能になりました。なんといっても、最近のCUDAのAPIとSDKは、使いやすいし便利です。しかし、残念なことに、CUDAはNVIDIAのものなので、NVIDIAのGPUでしか動作できない。

FYI: 一般にはCPUがやっている計算を、GPUで計算させることは、 GPGPU（GPUによる汎目的計算）と言います。

次は、OpenCLです。Open Computing Languageの略。当初はAppleとKhronos Groupが開発を指揮っていましたが、最近では主にKhronos GroupがOpenCL開発をリードしています。OpenCLを利用して嬉しいのは、多岐に渡るプラットフォームで動作することができる。また、当初はC言語しかサポートされなかったが、OpenCL 1.1からC++も使えるようになりました。

NVIDIAのGPUや、IntelのCPU（とGPU両方、HD4000型以降）、AMDのGPU、ARMのCPUで動きます。何故可能なんだ？これらのメーカーのプログラマの代表者が集まり、合同開発をしているからです。それぞれのメーカーのチップが個性的な機能で作られているが、一つのAPIを通じて利用できるのが、素晴らしいと思いません？それぞれのベンダーのOpenCLのSDKはAMD OpenCL SDK, Intel OpenCL SDK, とNVIDIA OpenCL SDKにあります。それぞれのOpenCLのSDKもそれぞれのベンダーが作成したサンプルも付いています。

上記２つは僕が主に利用したものです。もちろんこの他にも、多数あります。無料・有料の観点で分けると、

フリー: OpenMP, Intel’s TBB, Intel’s ArBB, Pthreads

有料: PGI’s Compiler with OpenACC, CAPS’ Compiler with OpenACC