目次

4.6 計算時間のまとめ

以上で述べた各手法の計算時間をまとめたものを表4-6-1に示します。
ハードウェアの詳細は4.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で約3倍速くなります。
GPUでは約20倍速くなります。

表4-6-1 各手法の計算時間(novectorモード、単精度、()内は速度比)
ハードウェア高速化手法ベンチマーク200ベンチマーク300ベンチマーク400出所
CPU (参考)並列化なし346.3秒 (1.0)1057.9秒 (1.0)2374.2秒 (1.0)新規
CPU OpenMP 8スレッド 98.6秒 (3.5) 326.5秒 (3.2) 779.0秒 (3.0)表4-2-2
CPU MPI 8プロセス 101.8秒 (3.4) 347.3秒 (3.0) 781.8秒 (3.0)表4-3-2
GPU CUDA 16.5秒 (21.0) 54.0秒 (19.6) 126.1秒 (18.8)表4-4-1
GPU(A100)CUDA 4.8秒 (72.1) 14.3秒 (74.0) 32.4秒 (73.3)新規