以上で述べた各手法の計算時間をまとめたものを表4-6-1に示します。
ハードウェアの詳細は4.1の通りです。
CPUではOpenMPまたはMPIによる並列化はほぼ同等で約3倍速くなります。
GPUでは約20倍速くなります。

表4-6-1 各手法の計算時間（novectorモード、単精度、()内は速度比）
ハードウェア	高速化手法	ベンチマーク200	ベンチマーク300	ベンチマーク400	出所
CPU	(参考)並列化なし	346.3秒 (1.0)	1057.9秒 (1.0)	2374.2秒 (1.0)	新規
CPU	OpenMP 8スレッド	98.6秒 (3.5)	326.5秒 (3.2)	779.0秒 (3.0)	表4-2-2
CPU	MPI 8プロセス	101.8秒 (3.4)	347.3秒 (3.0)	781.8秒 (3.0)	表4-3-2
GPU	CUDA	16.5秒 (21.0)	54.0秒 (19.6)	126.1秒 (18.8)	表4-4-1
GPU(A100)	CUDA	3.8秒 (91.1)	12.0秒 (88.2)	27.9秒 (85.1)	新規
GPU(H100)	CUDA	2.5秒 (139)	7.7秒 (137)	17.9秒 (133)	新規