表3-7-1に各手法の計算時間をまとめます。
ハードウェアの詳細は3.2の通りです。
CPUではOpenMPまたはMPIによる並列化で約2~3倍速くなります。
GPUではそれよりさらに約4倍速くなります。
CPU、GPUともに使用メモリーの少ないnomatrixモードを推奨します。
ハードウェア | 高速化手法 | 計算時間 | 出所 | |
---|---|---|---|---|
nomatrix | matrix | |||
CPU | (参考)並列化なし | 1066秒 | 859秒 | 表3-3-1 |
CPU | OpenMP 8スレッド | 377秒 | 385秒 | 表3-3-1 |
CPU | MPI 8プロセス | 389秒 | 413秒 | 表3-4-1 |
GPU | CUDA | 108秒 | メモリー不足 | 表3-6-1 |
GPU(H100) | CUDA | 17秒 | 15秒 | 新規 |
計算時間の内訳は図3-7-1の通りです。
CPUではnomatrixモードでは行列ベクトル積の時間が増えるのでその比率が上がります。
GPUではその比率はあまり上がりません。
なお、ベクトル演算の計算時間はmatrixモードとnomatrixモードで同じです。
(a) matrixモード
(b) nomatrixモード
図3-7-1 計算時間の内訳