質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Scala

ScalaはJava仮想マシンで動作を行うオブジェクト指向型プログラミング言語の1つです。静的型付けの関数型言語で、コンパイルエラーの検出に強みがあります。

Q&A

2回答

4421閲覧

netkeiba スクレイピングについて

teraken

総合スコア13

Scala

ScalaはJava仮想マシンで動作を行うオブジェクト指向型プログラミング言語の1つです。静的型付けの関数型言語で、コンパイルエラーの検出に強みがあります。

0グッド

1クリップ

投稿2016/12/11 07:51

netkeiba-scraperを使用しています

使い方

以下のコマンドを上から順に実行していけば最後に素性が作成される。

sbt "run collecturl"
レース結果が載っているURLを収集して「race_list.txt」に保存する。

sbt "run scrapehtml"
レース結果のHTMLをスクレイピングしてhtmlフォルダに保存する。HTMLをまるごとスクレイピングするので結構時間がかかる。

sbt "run extract"
HTMLからレース結果を抜き出しSQLiteに保存する。

sbt "run genfeature"
レース結果を元にして素性を作りSQLiteに保存する。

とありますが、run scrapehtmlの実行後の出力されたhtmlファイルを開くと文字化けしてしまいます。環境はwindows8です。文字エンコードを変更するとうまく表示されます。この文字化けが原因?で次のrun extractを行うとエラーになってしまいます。どこを編集すればうまくスクレイピングできるようになるでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

上の回答は間違えてしまいました。よく読んでなかったです、すみません。

run extractは、DBとテーブルを作成するだけなので、htmlが取得されていれば、まったく問題ないはずです。

もしかしたら、すでにrace.dbがありませんか?
すでにrace.dbがあってテーブルが作られている場合は、エラーになります。
その場合は、race.dbを削除してやり直してみてください。

投稿2019/11/05 00:12

sengokuK

総合スコア10

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

文字化け自体は問題ありません。
なぜなら、Main.scalaのソースを見ると、EUC-jpというコードで取得するようになっている仕様だからです。

これをブラウザで正常に(エンコードを変換して)見られるようにするには、ブラウザによってアドオンを追加する必要があります。

例えば、chromeであれば、テキストエンコーディング
で拡張機能を追加します。
ブラウザのURLの並びで右の方に新しくテキストエンコーディングというアイコンが追加されます。
テキストエンコードする場合、開いたHTMLを右クリックすれば、右クリックメニューからテキストエンコーディングのコンテクストメニューが現れます。そこで、下記画像のように現在一般的なunicode(utf-8)を選択すれば、文字化けが直ります。

イメージ説明
イメージ説明
イメージ説明

Firefoxの場合は、ハンバーガーメニューから、その他→テキストエンコーディングでエンコードできます。

投稿2019/11/05 00:05

sengokuK

総合スコア10

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問