質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Q&A

解決済

1回答

323閲覧

Nokogiriで取得したテキストをUnicodeコードポイントから日本語への変換

tomagurosu

総合スコア37

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

0グッド

0クリップ

投稿2019/01/01 09:52

編集2019/01/01 10:18

rubyのNokogiriを使用してスクレイピングをしています。
テキスト取得した際にコードポイントになってしまうようでしたので変換処理(decode_unicode)をかけたのですがうまくいかない様子です。

ruby

1def decode_unicode(str) 2 str.gsub(/\u([\da-fA-F]{4})/){ [$1].pack('H*').unpack('n*').pack('U*') } 3end 4 5url = "" 6doc = Nokogiri::HTML(open(url), nil, "utf-8") 7result = doc.css("") 8 .map { |ele| decode_unicode(ele.inner_text)}

確認したところdecode_unicodeでコードポイントが正規表現にマッチしていない様子でしたが下記のようなシングルクオーテーション文字列ではマッチして変換されるようでした。

ruby

1def decode_unicode(str) 2 str.gsub(/\u([\da-fA-F]{4})/){ [$1].pack('H*').unpack('n*').pack('U*') } 3end 4 5uni = '\u3053\u3093\u306B\u3061\u306F' 6 7p decode_unicode(uni)

nokogiriでの文字コードをshift_jis指定など試してみましたが
うまくいかずどなたかご教授よろしくお願いいたします。

テキスト取得した際にコードポイントになってしまうよう

と確認した部分を下記に追記いたしました。

ruby

1url = "https://tabelog.com/tokyo/A1308/A130801/13098267/" 2doc = Nokogiri::HTML(open(url), nil, "utf-8") 3p doc.css("table.c-table.c-table--form.rstinfo-table__table") 4 .css("td") 5 .map { |ele| ele.inner_text }[0] 6 7#出力結果 8# "\n \n \u3048\u3093\n \n \n "

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2019/01/01 09:58

> テキスト取得した際にコードポイントになってしまう これの具体的な状況を書いてください。どういう出力の仕方をして、どう出力されたか。
tomagurosu

2019/01/01 10:19

追記いたしました。 よろしくお願いいたします。
guest

回答1

0

ベストアンサー

おそらくWindows環境では? pで出力しているためそうなります。

下記を文字コードUTF-8で保存して、実行結果を参考に修正してください。簡単には、putsすればいい。

Ruby

1# encoding: utf-8 2a="あいう" 3 4p Encoding.default_external 5puts a 6p a 7 8Encoding.default_external = "utf-8" 9p Encoding.default_external 10puts a 11p a

投稿2019/01/01 11:21

otn

総合スコア84533

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tomagurosu

2019/01/01 13:53

ありがとうございます。 putsで確認できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問