目次

11. CIFAR-10

11.1 データセットの説明

CIFAR-10[23]は下記の10種類の画像データセットです。左の数字はラベルです。
(CIFAR : Canadian Institute for Advanced Research)

  1. airplane(飛行機)
  2. automobile(車)
  3. bird(鳥)
  4. cat(猫)
  5. deer(鹿)
  6. dog(犬)
  7. frog(蛙)
  8. horse(馬)
  9. ship(船)
  10. truck(トラック)
50000個の訓練データと10000個のテストデータから成ります。
各データは32x32ピクセルのカラー画像です。
図11-1にテストデータの各種類の最初の20個の画像を示します。
32x32ピクセルなので不鮮明な画像がたくさんあります。

図11-1 データセット(テストデータ)

11.2 計算条件の考察

11.2.1 自作CNN

図11-2にCNN6を共通としてチャンネル数を変えたときの正解率を示します。
128chと192chはほぼ同じであり、64chに勝ります。
図11-2に128chを共通としてCNN4/CNN6/CNN8と変えたときの正解率を示します。
CNN6とCNN8はほぼ同じであり、CNN4に勝ります。
以上から自作CNNでは"CNN6 128ch"以上が必要です。
最高の正解率は91.35%です。

図11-2 自作CNNの正解率(CNN6, Adam, 左右反転あり, 正規化あり, ドロップアウト0.3, ミニバッチ50)

図11-3 自作CNNの正解率(128ch, Adam, 左右反転あり, 正規化あり, ドロップアウト0.3, ミニバッチ50)

11.2.2 自作ResNet

図11-4に自作ResNetの正解率を示します。
()内はブロック数とチャンネル数です。
図からブロック数やチャンネル数を増やしても正解率は90%止まりであり、 自作CNNに1%程度劣ることがわかります。

図11-4 自作ResNetの正解率(Adam, 左右反転あり, 正規化あり, ドロップアウト0.3, ミニバッチ50)

11.2.3 公開ResNet(重みなし)

図11-5に公開ResNet(重みなし)の正解率を示します。
図からネットワークを深くしても正解率は88%止まりであり、 自作CNNに3%程度劣ることがわかります。

図11-5 公開ResNetの正解率(重みなし, Adam, Resize112, 左右反転あり, 正規化あり, ミニバッチ50)

11.2.4 公開ResNet(重みあり)

図11-6に公開ResNet(重みあり)の正解率を示します。
最適化されたパラメーターからの追加学習なので少ないエポック数で収束します。
ネットワークを深くすると正解率が上がることがわかります。
正解率は自作CNNや他のモデルと比べて大幅に上がります。
CIFAR-10において高い正解率を得るには、 ネットワークを深くすると同時に過学習を防ぎながらパラメーターを高度にチューニングすることが必要です。

図11-6 公開ResNetの正解率(重みあり, Resize112, 左右反転あり, 正規化あり, momentum(0.001,0.9), ミニバッチ50)

図11-7にResNet50(重みあり)においてパラメーターを変えたときの正解率を示します。
Resize=224, lr=0.002のとき正解率が高くなり最高97.65%になります。

図11-7 ResNet50の正解率(重みあり, 左右反転あり, 正規化あり, momentum0.9, ミニバッチ50)

11.3 計算結果

図11-8にテスト結果を示します。テストデータは最初の400個です。 赤字は上が正解、下が誤回答です。



図11-8 テスト結果(ResNet50)

図11-9に誤回答の最初の200個を示します。

図11-9 誤回答結果(ResNet50)

図11-10にラベル別の正解率を示します。"犬,猫"の正解率が低いことがわかります。

図11-10 ラベル別の正解率(ResNet50)