機械学習のアルゴリズムでニューラルネットワークを使う理由

機械学習で使うアルゴリズムの選定で教師あり分類で使われる次のアルゴリズムからどれがいいか考えています。

ロジスティック回帰
サポートベクトルマシン
ランダムフォレスト
ニューラルネットワーク
kNN

機械学習を用いる時にアルゴリズムの決め方や、ニューラルネットワークを1番使いたいのですが、理由はどのような事を言えばいいか教えて下さい。

やりたい事をざっくり言うとIPアドレス、URL、シグネチャのパターンの３つの特徴ベクトルから、悪性サイトか良性サイトかを判断する悪性サイトの機械学習解析システムを作ろうとしています。

tiitoi

2019/07/18 12:03

教師あり学習でも解こうとしているタスクによって適した手法というのは異なってくるので、具体的にどのようなタスクをやりたいのか記載していただけますか？(例: 花の画像の分類問題を解きたいなど)

行動規範の内容に同意します

回答1件

ベストアンサー

ニューラルネットが常に最強という訳ではないので、代表的なものはぜんぶ試してみて良かったやつを使うのが穏当です。
（研究なら、それぞれの結果を論文に載せるべきでしょう）

深層学習の強みは画像や自然言語のような特徴量ベクトルの作りづらいデータから特徴抽出を構造（CNN, RNN）に応じてやってくれることで、そのままSVMなどに投入できるデータだとコンベンショナルな手法に性能で負けることもよくあります。

ニューラルネットワークを1番使いたい

どうして？　単に好き嫌いで、ということなら、それは主張しない方が良いでしょう。客観的に考えて有効なものを使うのが大切です。

本当はそれぞれの分類器ごとに特性があるのでそこから考察する（このデータにはこの分類器が向いているだろう、ということがある程度言える）のが一番いいのですが、難しければ実際に試して数字で示すのは一つの手です。

投稿2019/07/18 12:04

編集2019/07/18 12:07

hayataka2049

総合スコア30933

Rondon7251

2019/07/18 12:16

回答ありがとうございます。ニューラルネットが常に最強という訳じゃないですか。わかっていましたがやっぱりそうなんですね???? 代表的なものを全部試して論文なら結果をのせる、とても参考になりました。ちなみにざっくりなんですが上で言った悪性サイトか良性サイトかの分類を行いたいのですが、主観でいいのですが1番向いてるアルゴリズムはなんだと思いますか？お手数ですが答えていただけたら嬉しいです。よろしくお願いしますm(_ _)m

hayataka2049

2019/07/18 12:22

文書分類？　それなら特徴量抽出をどうするのかという話も絡んでくるので、一概にいえない気が…… BoWでやるなら、データがでかければ（>1000）多項ナイーブベイズ、小さければランダムフォレストあたり。文書分散表現を使うのであればSVMなんかでいいんじゃないかなぁと思います。あとはロジスティック回帰や線形SVMなどの線形モデルも一応見ておいた方が良いでしょう（たまに線形モデルでうまくいくときがある）ニューラルネットもまあ、普通の隠れ層1つのMLPでそこそこいけるでしょう。どのモデルを使うにしても、パラメータチューニングは大切です。特にSVM、MLPは設定次第でぜんぜん変わります。まあ、質問文に挙がっているリストだとkNNはたぶんないかな、というくらいで、どれを使ってもそこそこの性能は出ると思います。

Rondon7251

2019/07/18 12:38 編集

沢山の情報ありがとうございます。参考に頑張ります。一応悪性か良性かの二値分類です。文書分類ではないはずです。 kNNは候補から外そうと思います。すいません最後にkNNはなぜないのか聞いてもいいですか？????

hayataka2049

2019/07/18 12:40

kNNは近傍点とのユークリッド距離（他の距離でも行けるとは思いますが）に頼って分類を行うので、距離が近ければ同じグループといえるようなデータでは使えるでしょうし、効かない特徴が大量に入っているとか変数のスケールが違うといった状況下ではあまり有用ではありません。また、実際問題としてkNNはあまり実用的な（性能の高い）アルゴリズムとはみなされないことの方が多いでしょう。もちろんデータ次第なので、有効になる可能性も排除はできませんが、一般論で言えばそんなに良くないです。

hayataka2049

2019/07/18 12:40

たとえば発表やったとして、「なんでSVMと比較しなかったの？」と言われる可能性は大いにあると思いますが、「なんでkNN使わなかったの？」って言ってくる人はまあ、いないでしょうね・・・

Rondon7251

2019/07/18 12:49 編集

kNN除いた４つのアルゴリズムを試して結果を論文に書いていこうと思います。本当にありがとうございました。とても参考なりました。

行動規範の内容に同意します