以上で述べた各手法の計算時間をまとめたものを表4-6-1に示します。
ハードウェアの詳細は4.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で約3倍速くなります。
GPUでは約20倍速くなります。
ハードウェア | 高速化手法 | ベンチマーク200 | ベンチマーク300 | ベンチマーク400 | 出所 |
---|---|---|---|---|---|
CPU | (参考)並列化なし | 346.3秒 (1.0) | 1057.9秒 (1.0) | 2374.2秒 (1.0) | 新規 |
CPU | OpenMP 8スレッド | 98.6秒 (3.5) | 326.5秒 (3.2) | 779.0秒 (3.0) | 表4-2-2 |
CPU | MPI 8プロセス | 101.8秒 (3.4) | 347.3秒 (3.0) | 781.8秒 (3.0) | 表4-3-2 |
GPU | CUDA | 16.5秒 (21.0) | 54.0秒 (19.6) | 126.1秒 (18.8) | 表4-4-1 |
GPU(A100) | CUDA | 4.8秒 (72.1) | 14.3秒 (74.0) | 32.4秒 (73.3) | 新規 |