DNNの再利用に関する質問です

お世話になっております。

##やりたい事(目的)
MNISTが提供しているDNNを生成するソースコードを利用して、他の学習データ(数字でなく、英字)の訓練とテストをしたいと思います。

##確認したい事(Q1,2,3)
DNNの層数 及び 各層上のユニット数(neuron数)は
訓練データの数、更に訓練データ中のカテゴリ別のサンプル数の割合によって影響されますね？ [Q1]

そうしたら、仮令"同じ" MNIST DBであっても、サンプルの数やカテゴリ別のサンプル数の割合がある程度変動したら、DNNの最適層数と各層上の最適ユニット数が変わるのですね？ [Q2]

そうしたら、上記目的達成するために、元のソースコードをいじって、DNNの層数や各層上のユニット数を多数調整したり効果確認したりする以外に便利な方法があれば、ぜひご教授いただきたいと思います。[Q3]

どうぞ宜しくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

[Q1]

from scratchなら仰る通りです。
サンプルの数に対して、パラメータの数が多すぎると過学習しても致し方ありません。
ただ、転移学習をする場合、小さなサンプル数に対して大きなネットワークを使うことができます。

[Q2]

「DNNの最適層数と各層上の最適ユニット数」の決定は非線形的です。
他にも学習にはいろいろなパラメータがあって影響を及ぼします。
一番典型的なmnistのデータセットに対しても「最適」だと確信をもって言えるパラメータ群はないかと。

[Q3]

一番簡単なものはグリッドサーチで自動化することではないでしょうか。
モデルの評価値を最大最小化する問題に帰着します。
非線形かつ過学習の可能性がある（評価値に揺らぎがある）問題ですので、一般論はありませんが。

投稿2018/04/05 23:18

mkgrei

総合スコア8560

oookabe

2018/04/06 05:50 編集

「移転学習」概念的にとても魅力的ですね。でも本当に手数省けるかどうか分かりませんーーこれから勉強しなければならいないのです。それに、「移転」前後のデータや目的に相当関連性なければならないようです：　(https://qiita.com/icoxfog417/items/48cbf087dd22f1f8c6f4) １．タスクは同じでも、観測データが異なるケース２．観測データは同じですが、その頻度が異なるケース３．予測ラベルが異なるケース４．ラベルの出現頻度が異なるケース数字訓練データを英字に置き変える場合、 a. 認識問題として同じ性格や特徴を持つ b. 画像品質は同じ c. 文字の複雑度は同じ、 d. 変形の発生も同じ程度 e. 認識対象の数はそれほど変わらないこのa~eは上の1~4とは違う属性の問題に気がして、通用できないではと危惧しますね。もしかして『タスクは同じでも、観測データが異なるケース』と『認識問題として同じ性格や特徴を持つ』とは同じ事言っているかもしれません。

oookabe

2018/04/06 05:58

そうしたら、前に議論があったgoogleのAutoMLというやつはまだエンドユーザとして利用できる段階ではないでしょうか。

mkgrei

2018/04/06 07:07

先に後の方の答えやすいコメントから https://gigazine.net/amp/20180403-google-noodle-machine-learning

mkgrei

2018/04/06 09:40

次に前半のコメントについてですが https://arxiv.org/pdf/1706.05137.pdf これがいまgoogleが注力している１つの分野です。転移学習という言葉は異なる文脈で異なる意味で使われます。 http://cs231n.github.io/transfer-learning/ コメント自体についてですが、考え方が少し将来的すぎます。もともと転移学習みたいなことはできないことが当たり前でした。タスクが同じような特徴を持っていればそれを生かすことができます。これはどっちかというとfine tuningだと思います。ニュアンス的に。それに加えて、重みを再利用することでかなり性質が異なるデータセットに対してもよい初期値になるというのがtransfer learningのコンセプトです。少なくともデータを流すとそれを分離する道を先に用意して、そこに修正を加えることで精度を出します。なので適当にやってもうまくいくことは保証しません。

oookabe

2018/04/09 01:53

ご指導有難うございました。

行動規範の内容に同意します

あまり深く考えず、マシンパワー任せでGrid Searchしてしまうというのは駄目ですか？

投稿2018/04/05 23:10

hayataka2049

総合スコア30933

oookabe

2018/04/06 06:16 編集

お返答有難うございます。「マシンパワー任せでGrid Search」そうですね。これは一番健康に良い方法だと思いたいです。。。ただ、基準点(出発点)はどう決めたらいいのでしょうか。基準点(出発点)を中心gridにしないと、計算量は以下の量に正比例：　層数 × (各層のユニット数^2) × mini batchの数× mini batchのサイズ × iteration 数 × epock数ですので、search spaceは宇宙オーダーで、虱つぶしにやったら、結果が出た時自分がどこにいるかは分かりませんね。

行動規範の内容に同意します

あなたの回答