画像や文章の機械学習に、画像や文章以外の特徴量も追加したい場合

初質問です。
タイトルどおり、画像や文章を機械学習させる際に、
画像や文章以外の特徴量も追加したい場合はどうすればよいのかを知りたいです。

例えば、画像の機械学習を行いたいとして、
ニューラルネットワークを用いて、100*100pxの写真を5000枚学習させるとします。
その結果、例えば、馬とか猫とか人とか機械に分類してくれる学習器ができました。

ところで、写真の画像データの他に、この写真には撮影場所や撮影時間いう特徴量（feature）があります。
そこで、この撮影場所、撮影時間という特徴量もデータに追加したいです。
その場合は、特徴量は10001番目、10002番目に追加するのでしょうか。

また、文章の機械学習を行いたいとして、
サイトの文章をベクトル化して、文章の雰囲気（女性向け、男性向け等）を分別するとします。
ベクトル化した結果、長さ2000のリストとなりました。文章は10000文あります。
文章は、10サイトから持ってきたため、どこのサイトの文章かを特徴量として追加したいです。
その場合は、特徴量は2001番目になるのでしょうか。

なんとなく、こうした場合、画像や文章そのものに対して、新しく追加した特徴量は軽視されるような気がしますが、
考え方としてこれであっているのでしょうか。
他に方法があるのか知りたいです。

よろしくお願いいたします。

#補足
10001番目と考えたのは、KojiDoiさんがおっしゃるように、「画像の機械学習の結果」を新しい特徴量として、試しに簡単な機械学習（ロジスティック回帰、SVM）を行ってみた場合、大幅に性能が低下した経験があるためです。（最初の質問にかけばよかったですね、すいません。）

この原因として、今回の例だと、
「画像の機械学習の結果」と、
「「撮影時間」、「撮影場所」等の特徴量（画像以外）からの学習結果」
であれば等価であり、これらの結果からアンサンブル学習を行えば良いのかなと思いましたが、
「画像の機械学習の結果」と「撮影時間」、「撮影場所」では、
重みが違いすぎてうまくいかないのかなと考えました。
もちろん、試しに追加した特徴量が悪かった可能性もありますが、
このケースの「撮影時間」や「撮影場所」のように意味はありそうな特徴量です。

なお、今回質問したいケースとしては、追加の特徴量（「撮影時間」「撮影時間」等）だけでは、
予測精度が出ないため、
「「撮影時間」、「撮影場所」等の特徴量（画像以外）からの学習結果」
は役に立たないけど、一つ一つの特徴量は有効だと考えられる場合です。

行動規範の内容に同意します

回答3件

ベストアンサー

質問に記載される10000の特徴量が、本来の100×100の2次元をベクトルにしたものということであれば、これに任意の特徴量を付加して学習する方法がありです。追加したものが軽視されることを懸念しているようですが、特徴量は各々を独立して処理するので問題にならないと思います。むしろ、本来は100×100で意味のある情報だった画像がピクセル単位で捉えられてしまうほうが、問題になるかもしれません。

上記を気にするのであれば、いったん、100×100の画像から畳み込みやプーリングなどを使って特徴量を抽出してから任意の特徴量を追加したほうがいいかもしれません。特に文章をOne-Hotでベクトル化している場合はスパースになるので、何らかの処理をしたほうがいいと思われます。

上記は単純に特徴量を追加するアプローチですが、「画像は画像だけで学習させ、任意の特徴量はそれだけで学習させ、その結果（クラスに所属する確率）を使ってもう一度学習させる」という方法もいいかと思います。これであれば、各々（画像とそれ以外）を独立した存在としつつ、統合させることができそうです。

投稿2018/09/08 21:13