DNNをon line訓練したい場合の訓練データのunbalance問題

総合スコア3378

2018/03/15 13:02 編集

R.Shigemori様素晴らしいご教授有難う御座います。こんなAI分野の専門家がいらっしゃるのは本当にAI時代に相応しいというか、この分野に入ろうとする人間にとって心強いですね。

2018/03/15 13:39

先ほど、思い出したのですが、本件を『識別問題』としてとらえるのではなく、『異常値検知問題』としてとらえてはいかがでしょう。これであれば、真値と偽値が不均衡であってもそれなりの精度が出ます。（以前に実験的に実装したところ、アンダーサンプリングやオーバーサンプリングよりいい結果が得られました。ただし、その際の問題は画像処理ほど複雑なものではないので、本件にうまくあてはまるかは何とも言えません）異常値検知手法は、既に品質管理システムや制御系システムで実績があるものらしいので、この分野からのアプローチも検討したほうがいいかもしれません。

2018/03/15 15:04

アドバイス有難う御座います！ >『異常値検知問題』として、真値と偽値が不均衡であってもそれなりの精度が出ます。そうですか。これは２値分類問題に相当でしょうか。それから、もう一つ理解できてない点がありまして、 > ケース2　：　クラス１～６を識別するモデルとして構築した場合... 自分のこれまでの理解では対応する訓練サンプルがあって、初めて識別種類が決められます。もし4～６の訓練データがなければ、そもそも"クラス１～６を識別するモデルとして構築した"というのはありえないのでは？と思いますが。理解間違えばご指摘頂きたいと思います。

2018/03/15 23:17 編集

異常値検知のなかの教師付き異常値検知は識別処理相当です。基本的には2値分類ですが、工夫次第で多値分類もいけると思います。（logistic回帰も本来は2値分類のものを応用して多値分類に拡張しているので、同じアプローチ方法を採ればいいはずです）後半の質問ですが、最も単純な2値分類において、クラス0のデータしかない状況でもモデル構築できるのと同じことです。説明変数側のデータの表現方法の工夫次第で何とかなります

行動規範の内容に同意します

前提として
DNNにおいて何を学習しているのかというのは人間には直感的ではありません。
DNNは「知能」を創造しているのではなく、決められた目的関数を最小化・最大化しているだけです。

Q1
データ自体の性質はモデルを作る人間が思慮深く考える問題です。
意識しないのであればうまくいくかどうかは運次第です。
できるコンサルはブラフをかけるかもしれませんが、そんなに万能ならデータサイエンティストなんていう仕事はありません。
偏りの強いデータはサンプリングの重みを変えるか、バッチサイズを大きく取って調整しないとよいモデルが作れません。

Q2
https://qiita.com/AkiyoshiOkano/items/dc19bffc88c549393699
リンクは教師データにないものを正常に予測できない例が最後にあります。
「勝手に分類」するというよりも、活性化関数が「正しく」発火しないので正常に予測できることを期待できません。
中はただの数字の演算ですから、「4」を見たことがないからオーバーフローする、ということはありません。
必ずなにかの数字が最後に出力されることを「勝手に分類」と呼ぶかどうかという言葉の問題になります。
極端な例だと、乱数を返す「モデル」を「分類」と呼ぶかという問題です。

数字の例で、分類ですからエンコーディングの方法にもよりますが、3つしか要素を持たないOneHotEncodingならいずれかにしか分類できません。

Q3
学習（勾配を計算して係数を更新）させることはできます。
うまくいくのかは保証できません。
不良であるかどうかをどのようにリアルタイムで伝えるのかという根本的な問題はあります。

投稿2018/03/15 06:25

総合スコア8562

2018/03/15 13:12

mkgrei様　すごい！　すごいですね。自分が千巻の本を読んでも、このような入木三分の心得を得られないと思います。とても勉強になりました！心より感謝致します。

2018/03/15 15:27 編集

ご案内されたリンク：https://qiita.com/AkiyoshiOkano/items/dc19bffc88c549393699 の中に以下の内容がありました。【女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり、これは今回の学習させたデータが全員男性の顔なので、女性の顔が渡されるとうまく判定できないけど、とりあえず各ラベルの確率を合わせて100%にして出力しないといけないからこういう結果になるのではないかなーと推測しました。難しい。】言葉良くないかもしれませんが、まさに「勝手に」とか「無理やり」分類っていう事ですね。このようなケースを避けたいのです。要は訓練データが少ないなどの理由で、あるクラスに属するかどうかに断定に自信がない場合、無理やり分類するより「分からない」というような情報を得たいですね。即ち「分からない」を一つの分類結果のタイプにしたいですね。何らかの形で実現可能でしょうか。宜しくお願いします。

2018/03/15 15:30

一番「楽」なのは、「未知」というカテゴリを追加して、全く関係のない画像を思いつく限り投げ込むことです。学習していないものに対する判定の脆弱性は深刻な問題です。 http://kivantium.hateblo.jp/entry/2015/09/04/123128 http://kivantium.hateblo.jp/entry/2015/09/09/003734

2018/03/15 18:43

横から失礼します。クラス識別は最終的な識別の前にそのデータが各クラスに属する確率を計算しているのでこれを応用するといいかと思います。本来は計算された確率が最大のクラスを答えとするのですが、確率が0.75に満たなければ、どれともいえないとするなどの工夫をすればいいはずです。tensorflowを前提にするのであれば、確率計算後の判定部分も自らコードを書くのでどうとでもなると思います

2018/03/16 02:12

R.Shigemoriさん、コメントをありがとうございます。どの確率も低い場合はおっしゃるとおりです。＞女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり oookabeさんもはられたこちらの記述が少々厄介に思っていて、強く誤認する場合何とも判断し難いかと。

2018/03/16 04:04

mkgreiさんご指摘は確率計算にsoftmaxを使った場合の難点ですね。私はモデルを評価する際、間違え方も考慮しています。2値分類の場合でいうと、50近辺で間違っていると仕方ないかと思えるのですが、95%として間違っているデータが多いと『モデルや前処理に考慮漏れがある』と疑ってかかるようにしています。その点からすると、私の感想は『何かやり残したことはないですか』というところです。もっとも、記事を大して読まずに意見しているので、信憑性ないですね

2018/03/16 07:36 編集

皆さん貴重なアイディアや情報有難う御座います。＞女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり上文の「かなりの確率で」という表現に気になりますね。これについてまず質問させて下さい。これはTEST段階で、DNNの出力(確率分布)において、未学習の女性画像に対しても突出的に高い値を持つカテゴリが現れたという意味でしょうか。[?] 以下は単に経験浅い人の論理的な考え方ですけれども----- 上記質問に関する回答がYESであれば、一体何が意味するかというと、その訓練済みのDNNは ① 構造的に単に一つの「弱学習機」に過ぎないか、あるいは ②　学習したサンプルの独特的な(本質的な)特徴を身に付けていないか、 ③　"過学習"の反対でーーー"学習不足"か ④ "汎化性が高すぎ"かのいずれかが原因でしょう。さて、ごめんなさい、非常に難しい質問かもしれませんが上記４つの原因を解消するためのそれぞれの手法を教えてくださいませんか(指針的なものでもOK)。

2018/03/16 16:22 編集

R.Shigemoriさんおっしゃる通りですね。 sigmoidのバイナリ発火にして、閾値・最大値で取れば少し緩和されるかもしれませんね。

leilei

2018/03/16 16:21 編集

横からごめんなさい！　初心者ですが、なかなか重要な話題だと認識しております。 mkgreiさんへ > sigmoidのバイナリ発火にして、閾値・最大値で取れば少し緩和されるかもしれませんね。分かるような分からないようなテクニックですけれども、もう少し具体的な説明をいただけませんか。

2018/03/16 18:28

leileiさん 2値（バイナリ）分類の場合、出力層でsigmoid関数を使ってクラス0とクラス1のどちらに属する確率が高いのかを計算した上で識別します。その際、普通は0.5を閾値にするのですが、あえて0.75などの大きめの閾値にすることで、クラス1に識別されるケースを抑制することができます。通常は、問題の重要性（例えば、間違えると大きな損失が出るようなもの）を鑑みて、かなり確実なクラス1だけを識別したい場合に活用するのですが、モデルのチューニング方法としても使えます。絶対に間違えたものを紛れ込ませないようにしたければ、間違えたもののうち最大値を閾値にすればいいことになります