機械学習：自然言語処理で文章と区分の両方のデータの解析について

###機械学習：自然言語処理で文章と区分の両方のデータの解析について

例として、たとえばこんなデータがあるとします。

都道府県	性別	年代	自由記述(感想など）	区分(答え)
東京都	男性	30代	この商品は●●××のような感じで、いまいちでした。	bad
大阪府	女性	20代	この商品は結構いい感じ。	good
愛知県	男性	20代	正直微妙です。	not good

こんなデータがある場合のアプローチとして、
都道府県・性別・年代は区分（マスタ化されたデータ）
これを機械学習時に、自由記述の部分については自然言語処理して、名詞抽出とかをすると思います。

数値化(辞書化した後に、キー値に置き換える)した場合の考え方として、下記は正しいでしょうか？
区分はそのまま区分として扱い、文章は自然言語処理して、ある意味区分のような感じで意味を持たせるといった考え方

都道府県	性別	年代	自由記述(感想など）	区分(答え)
1	1	1	1,2,3,4・・・・	1
2	2	2	1,2,5,6・・・・	2
3	1	2	7,8・・・	3

行動規範の内容に同意します

回答1件

ベストアンサー

単語をIDに置き換えた場合、そのIDの数字の大きさがモデルに著しい影響を与えます。
人間が恣意的につけた場合の辞書として

dic = {
    'この': 1, 
    '商品': 2,
    'は': 3',
    ...
    }

とした場合「は」は「商品」より大きな情報として処理されます。

これを防ぐためにポピュラーな方法として0ne hot vectorという手法があり、これは全単語を並べて置き、各文にどの単語が含まれるかを0と1で評価します。

例えばこの商品はいい感じ を数値変換する場合に辞書として「この」、「結構」、「商品」、「は」、「感じ」がある場合にこのように数値化します。

この	結構	商品	は	感じ
1	0	1	1	1

こうすることで単語の数字が余計な情報を持たずに済みます。他にもtf-idfや最近ですと深層学習を使ったBERTのような数値化の方法があるのでいろいろ試してみるとそれぞれ違った発見があると思います。

投稿2020/07/13 11:24

総合スコア33

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問