スクレイピングで文字を取得できない

###発生している問題・エラーメッセージ
サイトから文字列を取得したいのですが特定の文字がうまく取得できません。
そのサイトのソースコードにはcharset=utf-8とあります。
utf-8としてNokogiriでパースしたのですが、
＼(^-^)／や (´,,･ω･,,｀) といった文字列を含んでいると、それ以降の文字を読み込んでくれません。
何か対応策はないでしょうか。。

###該当のソースコード

charset = "utf-8"
html = open(url) do |f|
f.read
end
doc = Nokogiri::HTML.parse(html, nil, charset)

特定の文字列を含んでいなければ問題がないのですが、その文字列があるとうまくいかないのです。

###使用している環境

ruby 2.3.1p112 (2016-04-26 revision 54768) [x86_64-darwin15]

行動規範の内容に同意します

回答2件

＼(^-^)／や (´,,･ω･,,｀) はすべてJISの範囲の文字なので、おかしくなることは考えられません。
本当にそういう文字ですか？

Ruby
1html = open(url) do |f|
2f.read
3end
4p html.force_encoding("utf-8").valid_encoding?  #1
5p html.force_encoding("utf-8").encode("Shift_JIS") #2

で、#1はtrueですかfalseですか？#2でエラーは出ますか？

投稿2017/02/20 16:59

otn

総合スコア84505

Naggy

2017/02/24 01:51

#1,#2も問題がなかったのですが、いろいろ試行錯誤していたら問題は、requireした自分で作った.rbファイルに原因がありました。。。。本当に申し訳ないです。。

行動規範の内容に同意します

ベストアンサー

nokogiriと文字
この質問が参考になるかも？
つまり文字コードが違うとか。
##補足
よく見たら同じ人ですね。失礼しました。

追記
私が文字コードの置き換えでエラーが発生したときに使う方法を一応書いてみます。

Ruby
1html.encode('Windows-31J','UTF-8', :invalid => :replace, :undef => :replace)

今回は、まだ文字コードが問題の原因か分かっていないので
まずはotn様がおっしゃっていることを試されたら良いと思います。
参考
あのう・・な毎日

投稿2017/02/19 03:32

編集2017/02/20 18:59

退会済みユーザー

総合スコア0

Naggy

2017/02/19 20:00

前回はcharset=shift-jisと記載されているけど、実際はWindows-31Jだという話で、今回はそれがcharset=utf-8なんですね。どう対処すればいいかがわからなくてこまっています。

退会済みユーザー

2017/02/20 18:48

対象のサイトが私には分からないので今の私には原因を特定することは困難です。以前、似たような質問を見かけたなぁと思い出して少しでも助けになればと回答しました。

Naggy

2017/02/24 01:51

#1,#2も問題がなかったのですが、いろいろ試行錯誤していたら問題は、requireした自分で作った.rbファイルに原因がありました。。。。本当に申し訳ないです。。 otn様のサイトのご紹介ありがとうございました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

スクレイピングで文字を取得できない

関連した質問