###機械学習:自然言語処理で文章と区分の両方のデータの解析について
例として、たとえばこんなデータがあるとします。
都道府県 | 性別 | 年代 | 自由記述(感想など) | 区分(答え) |
---|---|---|---|---|
東京都 | 男性 | 30代 | この商品は●●××のような感じで、いまいちでした。 | bad |
大阪府 | 女性 | 20代 | この商品は結構いい感じ。 | good |
愛知県 | 男性 | 20代 | 正直微妙です。 | not good |
こんなデータがある場合のアプローチとして、
都道府県・性別・年代は区分(マスタ化されたデータ)
これを機械学習時に、自由記述の部分については自然言語処理して、名詞抽出とかをすると思います。
数値化(辞書化した後に、キー値に置き換える)した場合の考え方として、下記は正しいでしょうか?
区分はそのまま区分として扱い、文章は自然言語処理して、ある意味区分のような感じで意味を持たせるといった考え方
都道府県 | 性別 | 年代 | 自由記述(感想など) | 区分(答え) |
---|---|---|---|---|
1 | 1 | 1 | 1,2,3,4・・・・ | 1 |
2 | 2 | 2 | 1,2,5,6・・・・ | 2 |
3 | 1 | 2 | 7,8・・・ | 3 |
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。