目次

4.6 計算時間のまとめ

以上で述べた各手法の計算時間をまとめたものを表4-6-1に示します。
ハードウェアの詳細は4.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で約3倍速くなります。
GPUでは約20倍速くなります。

表4-6-1 各手法の計算時間(novectorモード、単精度、()内は速度比)
ハードウェア高速化手法ベンチマーク200ベンチマーク300ベンチマーク400出所
CPU (参考)並列化なし346.3秒 (1.0)1057.9秒 (1.0)2374.2秒 (1.0)新規
CPU OpenMP 8スレッド 98.6秒 (3.5) 326.5秒 (3.2) 779.0秒 (3.0)表4-2-2
CPU MPI 8プロセス 101.8秒 (3.4) 347.3秒 (3.0) 781.8秒 (3.0)表4-3-2
GPU CUDA 16.5秒 (21.0) 54.0秒 (19.6) 126.1秒 (18.8)表4-4-1
GPU(A100)CUDA 4.6秒 (75.3) 12.9秒 (82.0) 30.0秒 (79.1)新規
GPU(H100)CUDA 2.5秒 (138.5) 7.7秒 (137.4) 17.9秒 (132.6)新規