直接的な回答では無いのですが大阪大学(熊本大学)の松原先生のKDDの発表でURLのアクセスを予測する発表があります。URLとアクセスしたID、時間をテンソルに変換して、時系列に予測するモデルです。
URLを何らかの方法でテンソルに変換していると思います。
YouTube:Fast mining and forecasting of complex time-stamped events (KDD 2012)
論文もあると思いますので探してみてください。
いくつかの質問を通しての疑問ですが、最終目標はなんでしょうか?
- 機械学習を触ってみること?
- 業務として悪性のURLを分類する必要がある?
- SVMを理解する?
目標に応じてアプローチが異なると思います。
機械学習を理解するのであれば、上手く行くケースでまずは感覚を掴まれたらいかがかと思います。
(追記)
>最終目標はURLから悪性か良性かの分類プログラムを作りたいです。
具体的なイメージはないのですが、悪性の教師データを取得するのは難しいような気がします。
よくある異常検知のように正常データを大量に学習して、異物を発見するようなモデルになるように思いますが、果たしてURLの文字列から異物を判断することができるか疑問です。
ウィルス検知やマルウェア検知のアルゴリズムなどを調べてみてはいかがでしょうか?
初期のスパム検知にはナイーブベイズが利用されていたと聞いたことがあります。