質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.51%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

2回答

463閲覧

DNNをon line訓練したい場合の訓練データのunbalance問題

oookabe

総合スコア126

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

3グッド

2クリップ

投稿2018/03/15 03:23

いつもお世話になっております。

訓練データのunbalance問題について質問をさせていただきます。

Q1: 例えば、tensorFlowを使ってDNNを行う場合、 われわれは特に意識しなくても
訓練データのunbalance問題自動的に解決されるのでしょうか。

Q2: Q1の極端なケースとして、例えば、手書きの1,2,3のサンプルを多量に学習させて、
4,5,6 に関する学習サンプルは無かった場合、TESTの時に、もし4,5,6 の画像が入力したら、
DCNNは勝手に 1,2,3のいずれかに無理分類するのでしょうか。

Q3: 検査システムにおいて、オンラインで不良サンプルをDNNに学習させる場合、
不良サンプルが一個一個ランダム的に来るので、一つ一つ来る度に DNNに学習させるのはだめでしょうか。
【unbalance問題とそれ以上に深刻な問題になりそうだが、非常に悪い予感があって、原因は言えません

皆さまのアイディアを是非お伺いさせていただきたいと思います。

どうぞ宜しくお願いします。

leilei, IS.SEKI👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

Q1について
imbalanced classification問題は、コスト関数が少数派の誤差を過小に評価することに起因してオプティマイザーが多数派の精度を高めるように学習を進めることによって発生するものなので、このコスト関数の計算部分に対策をしない限り、ディープニューラルネットワークでも回避することは不可能です。
対策としては、オーバーサンプリングやアンダーサンプリングのようなデータを件数を調整するか、コスト関数のウェイトを調整するかが必要で、いずれもモデル構築者が解決すべき課題と与えられたデータの特性に応じて考えるしかありません。

Q2について
モデルによると思います。

ケース1 : クラス1・2・3を識別するモデルとして構築した場合
4・5・6が手書き数字として与えれると、モデルは1・2・3に最も近いものに識別します。これは無理やりというよりも与えられた画像データとして最も近いものとしてとらえているという理解のほうが近いと思います。ただし、ディープニューラルネットワークにおける最も近いというのは、人の目で似ているというのとは相当異なります。(全結合層のインプットが似ているという感じでしょうか)

ケース2 : クラス1~6を識別するモデルとして構築した場合
学習時のデータに4~6がないので、モデルは4~6を識別する能力が極めて悪くなります。これは、4~6を無理やりに1~3に識別しているというよりも、4~6に識別する能力が低すぎるという解釈のほうがいいように思います。

Q3について
学習方法のひとつにデータ1件単位で行うものがあるそうです。よって、質問されていることをこの学習方法であると解釈してしまえば、『アリ』ということになります。
ただし、これは、学習用データセットが相当数あるなかで1件ずつの学習を全件にわたって行うことを1epochとして、それなりのepoch数の学習を行うことが前提となります。

記載の検査システムの全体像がちょっとわからないので、うまくできるようにする方法がちょっと思いつきませんが、やりようによってはできる気もしますし、できたとしても実用に耐えない可能性もあります。

投稿2018/03/15 12:27

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

oookabe

2018/03/15 13:02 編集

R.Shigemori様 素晴らしいご教授有難う御座います。 こんなAI分野の専門家がいらっしゃるのは本当にAI時代に相応しいというか、この分野に入ろうとする人間にとって心強いですね。
R.Shigemori

2018/03/15 13:39

先ほど、思い出したのですが、本件を『識別問題』としてとらえるのではなく、『異常値検知問題』としてとらえてはいかがでしょう。これであれば、真値と偽値が不均衡であってもそれなりの精度が出ます。(以前に実験的に実装したところ、アンダーサンプリングやオーバーサンプリングよりいい結果が得られました。ただし、その際の問題は画像処理ほど複雑なものではないので、本件にうまくあてはまるかは何とも言えません) 異常値検知手法は、既に品質管理システムや制御系システムで実績があるものらしいので、この分野からのアプローチも検討したほうがいいかもしれません。
oookabe

2018/03/15 15:04

アドバイス有難う御座います! >『異常値検知問題』として、真値と偽値が不均衡であってもそれなりの精度が出ます。 そうですか。これは2値分類問題に相当でしょうか。 それから、もう一つ理解できてない点がありまして、 > ケース2 : クラス1~6を識別するモデルとして構築した場合... 自分のこれまでの理解では対応する訓練サンプルがあって、初めて識別種類が決められます。 もし4~6の訓練データがなければ、そもそも"クラス1~6を識別するモデルとして構築した"というのはありえないのでは?と思いますが。 理解間違えばご指摘頂きたいと思います。
R.Shigemori

2018/03/15 23:17 編集

異常値検知のなかの教師付き異常値検知は識別処理相当です。基本的には2値分類ですが、工夫次第で多値分類もいけると思います。(logistic回帰も本来は2値分類のものを応用して多値分類に拡張しているので、同じアプローチ方法を採ればいいはずです) 後半の質問ですが、最も単純な2値分類において、クラス0のデータしかない状況でもモデル構築できるのと同じことです。説明変数側のデータの表現方法の工夫次第で何とかなります
guest

0

前提として
DNNにおいて何を学習しているのかというのは人間には直感的ではありません。
DNNは「知能」を創造しているのではなく、決められた目的関数を最小化・最大化しているだけです。

Q1
データ自体の性質はモデルを作る人間が思慮深く考える問題です。
意識しないのであればうまくいくかどうかは運次第です。
できるコンサルはブラフをかけるかもしれませんが、そんなに万能ならデータサイエンティストなんていう仕事はありません。
偏りの強いデータはサンプリングの重みを変えるか、バッチサイズを大きく取って調整しないとよいモデルが作れません。

Q2
https://qiita.com/AkiyoshiOkano/items/dc19bffc88c549393699
リンクは教師データにないものを正常に予測できない例が最後にあります。
「勝手に分類」するというよりも、活性化関数が「正しく」発火しないので正常に予測できることを期待できません。
中はただの数字の演算ですから、「4」を見たことがないからオーバーフローする、ということはありません。
必ずなにかの数字が最後に出力されることを「勝手に分類」と呼ぶかどうかという言葉の問題になります。
極端な例だと、乱数を返す「モデル」を「分類」と呼ぶかという問題です。

数字の例で、分類ですからエンコーディングの方法にもよりますが、3つしか要素を持たないOneHotEncodingならいずれかにしか分類できません。

Q3
学習(勾配を計算して係数を更新)させることはできます。
うまくいくのかは保証できません。
不良であるかどうかをどのようにリアルタイムで伝えるのかという根本的な問題はあります。

投稿2018/03/15 06:25

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

oookabe

2018/03/15 13:12

mkgrei様  すごい! すごいですね。 自分が千巻の本を読んでも、このような入木三分の心得を得られないと思います。 とても勉強になりました! 心より感謝致します。
oookabe

2018/03/15 15:27 編集

ご案内されたリンク:https://qiita.com/AkiyoshiOkano/items/dc19bffc88c549393699 の中に以下の内容がありました。 【女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり、これは今回の学習させたデータが全員男性の顔なので、女性の顔が渡されるとうまく判定できないけど、とりあえず各ラベルの確率を合わせて100%にして出力しないといけないからこういう結果になるのではないかなーと推測しました。難しい。】 言葉良くないかもしれませんが、まさに「勝手に」とか「無理やり」分類っていう事ですね。 このようなケースを避けたいのです。 要は訓練データが少ないなどの理由で、あるクラスに属するかどうかに断定に自信がない場合、 無理やり分類するより「分からない」というような情報を得たいですね。 即ち「分からない」を一つの分類結果のタイプにしたいですね。 何らかの形で実現可能でしょうか。 宜しくお願いします。
R.Shigemori

2018/03/15 18:43

横から失礼します。 クラス識別は最終的な識別の前にそのデータが各クラスに属する確率を計算しているのでこれを応用するといいかと思います。 本来は計算された確率が最大のクラスを答えとするのですが、確率が0.75に満たなければ、どれともいえないとするなどの工夫をすればいいはずです。tensorflowを前提にするのであれば、確率計算後の判定部分も自らコードを書くのでどうとでもなると思います
mkgrei

2018/03/16 02:12

R.Shigemoriさん、コメントをありがとうございます。 どの確率も低い場合はおっしゃるとおりです。 >女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり oookabeさんもはられたこちらの記述が少々厄介に思っていて、強く誤認する場合何とも判断し難いかと。
R.Shigemori

2018/03/16 04:04

mkgreiさん ご指摘は確率計算にsoftmaxを使った場合の難点ですね。私はモデルを評価する際、間違え方も考慮しています。2値分類の場合でいうと、50近辺で間違っていると仕方ないかと思えるのですが、95%として間違っているデータが多いと『モデルや前処理に考慮漏れがある』と疑ってかかるようにしています。 その点からすると、私の感想は『何かやり残したことはないですか』というところです。もっとも、記事を大して読まずに意見しているので、信憑性ないですね
oookabe

2018/03/16 07:36 編集

皆さん 貴重なアイディアや情報有難う御座います。 >女性の画像はかなりの確率でビルゲイツ氏かイーロンマスク氏が95%以上になり 上文の「かなりの確率で」という表現に気になりますね。 これについてまず質問させて下さい。 これはTEST段階で、DNNの出力(確率分布)において、未学習の女性画像に対しても突出的に高い値を持つカテゴリが現れたという意味でしょうか。[?] 以下は単に経験浅い人の論理的な考え方ですけれども----- 上記質問に関する回答がYESであれば、一体何が意味するかというと、 その訓練済みのDNNは ① 構造的に単に一つの「弱学習機」に過ぎないか、あるいは ② 学習したサンプルの独特的な(本質的な)特徴を身に付けていないか、 ③ "過学習"の反対でーーー"学習不足"か ④ "汎化性が高すぎ"か のいずれかが原因でしょう。 さて、ごめんなさい、非常に難しい質問かもしれませんが 上記4つの原因を解消するためのそれぞれの手法を教えてくださいませんか(指針的なものでもOK)。
mkgrei

2018/03/16 16:22 編集

R.Shigemoriさん おっしゃる通りですね。 sigmoidのバイナリ発火にして、閾値・最大値で取れば少し緩和されるかもしれませんね。
leilei

2018/03/16 16:21 編集

横からごめんなさい!  初心者ですが、なかなか重要な話題だと認識しております。 mkgreiさんへ > sigmoidのバイナリ発火にして、閾値・最大値で取れば少し緩和されるかもしれませんね。 分かるような分からないようなテクニックですけれども、もう少し具体的な説明をいただけませんか。
R.Shigemori

2018/03/16 18:28

leileiさん 2値(バイナリ)分類の場合、出力層でsigmoid関数を使ってクラス0とクラス1のどちらに属する確率が高いのかを計算した上で識別します。その際、普通は0.5を閾値にするのですが、あえて0.75などの大きめの閾値にすることで、クラス1に識別されるケースを抑制することができます。 通常は、問題の重要性(例えば、間違えると大きな損失が出るようなもの)を鑑みて、かなり確実なクラス1だけを識別したい場合に活用するのですが、モデルのチューニング方法としても使えます。絶対に間違えたものを紛れ込ませないようにしたければ、間違えたもののうち最大値を閾値にすればいいことになります
mkgrei

2018/03/18 17:53

R.Shigemoriさん 補足をありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.51%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問