netkeiba-scraperを使用しています
使い方
以下のコマンドを上から順に実行していけば最後に素性が作成される。
sbt "run collecturl"
レース結果が載っているURLを収集して「race_list.txt」に保存する。
sbt "run scrapehtml"
レース結果のHTMLをスクレイピングしてhtmlフォルダに保存する。HTMLをまるごとスクレイピングするので結構時間がかかる。
sbt "run extract"
HTMLからレース結果を抜き出しSQLiteに保存する。
sbt "run genfeature"
レース結果を元にして素性を作りSQLiteに保存する。
とありますが、run scrapehtmlの実行後の出力されたhtmlファイルを開くと文字化けしてしまいます。環境はwindows8です。文字エンコードを変更するとうまく表示されます。この文字化けが原因?で次のrun extractを行うとエラーになってしまいます。どこを編集すればうまくスクレイピングできるようになるでしょうか。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。