以上で述べた各手法の計算時間をまとめたものを表4-6-1に示します。
ハードウェアの詳細は4.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で約3倍速くなります。
GPUでは約20倍速くなります。
| ハードウェア | 高速化手法 | ベンチマーク200 | ベンチマーク300 | ベンチマーク400 | 出所 |
|---|---|---|---|---|---|
| CPU | (参考)並列化なし | 346.3秒 (1.0) | 1057.9秒 (1.0) | 2374.2秒 (1.0) | 新規 |
| CPU | OpenMP 8スレッド | 98.6秒 (3.5) | 326.5秒 (3.2) | 779.0秒 (3.0) | 表4-2-2 |
| CPU | MPI 8プロセス | 101.8秒 (3.4) | 347.3秒 (3.0) | 781.8秒 (3.0) | 表4-3-2 |
| GPU | CUDA | 16.5秒 (21.0) | 54.0秒 (19.6) | 126.1秒 (18.8) | 表4-4-1 |
| GPU(A100) | CUDA | 4.6秒 (75.3) | 12.9秒 (82.0) | 30.0秒 (79.1) | 新規 |
| GPU(H100) | CUDA | 2.5秒 (138.5) | 7.7秒 (137.4) | 17.9秒 (132.6) | 新規 |