13. Kuzushiji-49

13.1 データセットの説明

Kuzushiji-49[18]-[21]は日本の古典からとったひらがなのくずし字のデータセットです。
以下の49字から成ります。
　あ,い,う,え,お,か,き,く,け,こ,さ,し,す,せ,そ,
　た,ち,つ,て,と,な,に,ぬ,ね,の,は,ひ,ふ,へ,ほ,
　ま,み,む,め,も,や,ゆ,よ,ら,り,る,れ,ろ,わ,ゐ,
　ゑ,を,ん,ゝ
232365個の訓練データと38547個のテストデータから成ります。
各データは28x28ピクセルのモノクロ画像です。
Kuzushiji-MNISTと比べると、文字の数が10から49に増え、全体のデータ数が増え、文字によってデータ数が不均一になっています。
また、Kuzushiji-MNISTと同じく変体仮名を多数含んでいます。
図13-1にテストデータの各文字の最初の20個の画像を示します。

13.2 計算条件の考察

13.2.1 自作CNN

図13-2に自作CNNの正解率を示します。
文字によってデータ数が変わりますが、ここでは「正解率=正解テストデータ数/全テストデータ数」としています。
(a)128ch一定のとき、CNN6<CNN8=CNN10です。
(b)CNN8一定のとき、チャンネル数=128～256でほぼ一定です。
最高の正解率は97.50%です。