質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

3回答

2020閲覧

Python3.7.2 print()で文字化け

kikutalk

総合スコア8

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2019/01/13 06:42

前提・実現したいこと

python3.7.2
beautifulsoup4
html_parser

上記の環境にてスクレイピングを実施、該当する情報を取得したい。

■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

Python3.7.2環境で、print() の際utf-8ケアはしているのですが、日本語部分が文字化けしてしまいます。
本来 「Yahooニュース」と出力させたいところ、現状は下記のような出力となります。

b'Yahoo!\xe3\x83\x8b\xe3\x83\xa5\xe3\x83\xbc\xe3\x82\sb9'

import requests from bs4 import BeautifulSoup In [7]: url = 'http://news.yahoo.co.jp/topics' r = requests.get(url) print(r.status_code) print(r.encoding) soup = BeautifulSoup(r.content, 'html.parser') elements = soup.find_all('title') for e in elements: some = e.text.encode('utf-8') print(some) ```ここに言語名を入力 python3.7.2 beautifulsoup4 html_parser

試したこと

サイト上のEncoding宣言はUTF-8であることを確認しました
utf-8をケアするため、改めてencodeでutf-8を宣言しました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

e.textの時点でデコード済みのstr型になっているのでe.textをそのままprintするだけでよいです。

Python

1import requests 2from bs4 import BeautifulSoup 3 4url = 'http://news.yahoo.co.jp/topics' 5r = requests.get(url) 6 7print(r.status_code) # 200 8print(r.encoding) # UTF-8 9soup = BeautifulSoup(r.content, 'html.parser') 10 11elements = soup.find_all('title') 12for e in elements: 13 print(type(e.text)) # <class 'str'> 14 #some = e.text.encode('utf-8') 15 some = e.text 16 print(some) # Yahoo!ニュース

投稿2019/01/13 06:51

編集2019/01/13 06:52
can110

総合スコア38266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kikutalk

2019/01/13 07:39

ご回答ありがとうございます。 実行したところ下記のようなErrorMsgが返りました。 これから外出しますので、帰宅したら内容を調べていきたいと思います。 --- Traceback (most recent call last): File "test5.py", line 22, in <module> print(e) # Yahoo!ニュース File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 13-16: character maps to <undefined>
can110

2019/01/13 08:28

ひとまずprint(e) -> print(e.text)としてください。とはいえ提示エラーは消えない可能性高いですが。 あとは実行環境(コマンドプロンプト、IDE上)の標準出力のエンコーディングによるので 現時点ではなんとも云えません。
guest

0

現状は下記のような出力となります。

b'Yahoo!\xe3\x83\x8b\xe3\x83\xa5\xe3\x83\xbc\xe3\x82\sb9'

エンコードしたらバイト列になり、人間に読めなくなるのは当然といえば当然です。


当該Webページの文字コードはShift-jisでした。
追記:勘違いだったかも。

Python

1import requests 2from bs4 import BeautifulSoup 3 4url = 'http://news.yahoo.co.jp/topics' 5r = requests.get(url) 6 7# r.encoding = 'shift_jis' この行は不要なようです。 8soup = BeautifulSoup(r.content, 'html.parser') 9 10elements = soup.find_all('title') 11for e in elements: 12 print(e)

これで文字化けは避けられるはずです。

投稿2019/01/13 06:51

編集2019/01/13 06:54
LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

自己解決

Anaconda環境で実施したところ問題なく表示することができました。

投稿2019/01/15 05:24

kikutalk

総合スコア8

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問