CIFAR-10[23]は下記の10種類の画像データセットです。左の数字はラベルです。
(CIFAR : Canadian Institute for Advanced Research)
図11-2にCNN6を共通としてチャンネル数を変えたときの正解率を示します。
128chと192chはほぼ同じであり、64chに勝ります。
図11-2に128chを共通としてCNN4/CNN6/CNN8と変えたときの正解率を示します。
CNN6とCNN8はほぼ同じであり、CNN4に勝ります。
以上から自作CNNでは"CNN6 128ch"以上が必要です。
最高の正解率は91.35%です。
図11-4に自作ResNetの正解率を示します。
()内はブロック数とチャンネル数です。
図からブロック数やチャンネル数を増やしても正解率は90%止まりであり、
自作CNNに1%程度劣ることがわかります。
図11-5に公開ResNet(重みなし)の正解率を示します。
図からネットワークを深くしても正解率は88%止まりであり、
自作CNNに3%程度劣ることがわかります。
図11-6に公開ResNet(重みあり)の正解率を示します。
最適化されたパラメーターからの追加学習なので少ないエポック数で収束します。
ネットワークを深くすると正解率が上がることがわかります。
正解率は自作CNNや他のモデルと比べて大幅に上がります。
CIFAR-10において高い正解率を得るには、
ネットワークを深くすると同時に過学習を防ぎながらパラメーターを高度にチューニングすることが必要です。
図11-7にResNet50(重みあり)においてパラメーターを変えたときの正解率を示します。
Resize=224, lr=0.002のとき正解率が高くなり最高97.65%になります。
図11-8にテスト結果を示します。テストデータは最初の400個です。
赤字は上が正解、下が誤回答です。
図11-9に誤回答の最初の200個を示します。
図11-10にラベル別の正解率を示します。"犬,猫"の正解率が低いことがわかります。