初質問です。
タイトルどおり、画像や文章を機械学習させる際に、
画像や文章以外の特徴量も追加したい場合はどうすればよいのかを知りたいです。
例えば、画像の機械学習を行いたいとして、
ニューラルネットワークを用いて、100*100pxの写真を5000枚学習させるとします。
その結果、例えば、馬とか猫とか人とか機械に分類してくれる学習器ができました。
ところで、写真の画像データの他に、この写真には撮影場所や撮影時間いう特徴量(feature)があります。
そこで、この撮影場所、撮影時間という特徴量もデータに追加したいです。
その場合は、特徴量は10001番目、10002番目に追加するのでしょうか。
また、文章の機械学習を行いたいとして、
サイトの文章をベクトル化して、文章の雰囲気(女性向け、男性向け等)を分別するとします。
ベクトル化した結果、長さ2000のリストとなりました。文章は10000文あります。
文章は、10サイトから持ってきたため、どこのサイトの文章かを特徴量として追加したいです。
その場合は、特徴量は2001番目になるのでしょうか。
なんとなく、こうした場合、画像や文章そのものに対して、新しく追加した特徴量は軽視されるような気がしますが、
考え方としてこれであっているのでしょうか。
他に方法があるのか知りたいです。
よろしくお願いいたします。
#補足
10001番目と考えたのは、KojiDoiさんがおっしゃるように、「画像の機械学習の結果」を新しい特徴量として、試しに簡単な機械学習(ロジスティック回帰、SVM)を行ってみた場合、大幅に性能が低下した経験があるためです。(最初の質問にかけばよかったですね、すいません。)
この原因として、今回の例だと、
「画像の機械学習の結果」と、
「「撮影時間」、「撮影場所」等の特徴量(画像以外)からの学習結果」
であれば等価であり、これらの結果からアンサンブル学習を行えば良いのかなと思いましたが、
「画像の機械学習の結果」と「撮影時間」、「撮影場所」では、
重みが違いすぎてうまくいかないのかなと考えました。
もちろん、試しに追加した特徴量が悪かった可能性もありますが、
このケースの「撮影時間」や「撮影場所」のように意味はありそうな特徴量です。
なお、今回質問したいケースとしては、追加の特徴量(「撮影時間」「撮影時間」等)だけでは、
予測精度が出ないため、
「「撮影時間」、「撮影場所」等の特徴量(画像以外)からの学習結果」
は役に立たないけど、一つ一つの特徴量は有効だと考えられる場合です。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/09 23:44