こんにちは。
webスクレイピング
の勉強をしています。
複数エントリーを眺めて勉強していますが、
Nokogiriで簡単なWebスクレイピング
のページに気になるコメントがありました。
早い話、##########の部分を書き換え可能と言う話であります。
ruby:hoge.rb
1require 'open-uri' 2require 'nokogiri' 3 4url = '{URL}' 5 6######################################### 7charset = nil 8html = open(url) do |f| 9 charset = f.charset # 文字種別を取得します。 10 f.read # htmlを読み込み変数htmlに渡します。 11end 12page = Nokogiri::HTML.parse(html, nil, charset) #htmlを解析し、オブジェクト化 13######################################### 14# 上の6行を1行に書き換え可能 15page = Nokogiri::HTML.parse(open(url)) 16######################################### 17 18 19res = page.search('*****') 20p res.text
知りたいこと。
そこで気になったのはUTF-8というのは日本語のページ限定なのでしょうか。
例えば英語のサイトをスクレイピングするときはcharset=nil
が必要なのでしょうか。
お詳しい方、ご教授いただけると幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/02/02 05:16