質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Q&A

解決済

3回答

2917閲覧

文字コードについて

terate

総合スコア103

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

0グッド

0クリップ

投稿2016/02/23 14:36

編集2016/04/05 03:08

下記コードのcharsetに”Shift_JIS”を代入しても、charset = f.charsetにShift_JISが入らない原因は何が考えられるでしょうか?

ruby

1# URLにアクセスするためのライブラリの読み込み 2require 'open-uri' 3# Nokogiriライブラリの読み込み 4require 'nokogiri' 5 6# スクレイピング先のURL 7url = 'shift-jisのサイト' 8 9charset = ”shift-jis” 10html = open(url) do |f| 11 charset = f.charset # 文字種別を取得 12 f.read # htmlを読み込んで変数htmlに渡す 13end 14 15# htmlをパース(解析)してオブジェクトを生成 16doc = Nokogiri::HTML.parse(html, nil, charset)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ruby

1charset = ”shift-jis” 2html = open(url) do |f| 3 charset = f.charset 4 p f.charset # -> 何が出力されますか? 5 f.read 6end

OpenURI::Metaリファレンスによると以下のように記述されています。

ruby

1charset -> String | nil 2charset { ... } -> String

なのでnilが代入されてませんか?ちなみにdoc = Nokogiri::HTML.parse(html)だけだと,不都合があるのでしょうか?

おそらくコードの問題ではなく読み込むurlのソースに問題がありそうです。対症療法的ですが,
charset = f.charset||charset
あたりで逃げてみるというのも手かもしれません。

自分の経験からスクレイピングで厄介なのは,こちら側のコードの問題より,スクレイピング先のhtmlコードに問題がある場合でした。

投稿2016/02/23 15:30

編集2016/02/23 15:53
NCC1701

総合スコア1680

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

terate

2016/02/25 14:03

ありがとうございます!スクレイピング先の問題もあるんですね。。大変勉強になりました!
guest

0

こちらのサイトが参考になるのではないかと思います。
http://route477.net/d/?date=20110119

URIを渡してopenしているのはrequire 'open-uri'しているからだと思いますが、
そのopen-uriでのファイルオブジェクトはOpenURI::Metaとして拡張されていますので、
以下のページをいちど参照されるとよいかと思います。
参考:
http://docs.ruby-lang.org/ja/2.1.0/class/OpenURI=3a=3aMeta.html
http://docs.ruby-lang.org/ja/2.1.0/library/open=2duri.html

具体的な解決策を提示できず申し訳ないですが、お役に立てれば幸いです。

投稿2016/02/23 14:56

MotokiYatsu

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

terate

2016/02/25 14:03

ありがとうございます!リンク先も読んでみました!すごく勉強になりました!!
guest

0

ベストアンサー

charset = ”shift-jis” じゃなくcharset = "Shift_JIS"
としてもだめでしょうか?

追記
こちらのサイトが参考になりそうなのですが、
いかがでしょうか?

 http://ref.xaio.jp/ruby/classes/string/encode

投稿2016/02/23 14:53

編集2016/02/23 14:55
hato_pato

総合スコア215

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

terate

2016/02/23 14:55

ごめんなさい、今自分でも気づき編集致しました。”Shift_JIS”でもダメなんです・・
hato_pato

2016/02/23 15:00

url = 'shift-jisのサイト' charset = ”Shift_JIS” html = open(url) do |f| f.read # htmlを読み込んで変数htmlに渡す end html.encode(charset) じゃだめでしょうか?
terate

2016/02/25 14:02

本当にありがとうございます!そのようにして解決致しました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問