Python3.7.2 print()で文字化け

前提・実現したいこと

python3.7.2
beautifulsoup4
html_parser

上記の環境にてスクレイピングを実施、該当する情報を取得したい。

■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

Python3.7.2環境で、print()　の際utf-8ケアはしているのですが、日本語部分が文字化けしてしまいます。
本来　「Yahooニュース」と出力させたいところ、現状は下記のような出力となります。

b'Yahoo!\xe3\x83\x8b\xe3\x83\xa5\xe3\x83\xbc\xe3\x82\sb9'


import requests
from bs4 import BeautifulSoup
In [7]:

url = 'http://news.yahoo.co.jp/topics'
r = requests.get(url)

print(r.status_code)   
print(r.encoding)      
soup = BeautifulSoup(r.content, 'html.parser')

elements = soup.find_all('title')
for e in elements:
some = e.text.encode('utf-8')
    print(some)








```ここに言語名を入力
python3.7.2
beautifulsoup4
html_parser

試したこと

サイト上のEncoding宣言はUTF-8であることを確認しました
utf-8をケアするため、改めてencodeでutf-8を宣言しました。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答3件

e.textの時点でデコード済みのstr型になっているのでe.textをそのままprintするだけでよいです。

Python
1import requests
2from bs4 import BeautifulSoup
3
4url = 'http://news.yahoo.co.jp/topics'
5r = requests.get(url)
6
7print(r.status_code) # 200
8print(r.encoding) # UTF-8
9soup = BeautifulSoup(r.content, 'html.parser')
10
11elements = soup.find_all('title')
12for e in elements:
13    print(type(e.text)) # <class 'str'>
14    #some = e.text.encode('utf-8')
15    some = e.text
16    print(some) # Yahoo!ニュース

投稿2019/01/13 06:51

編集2019/01/13 06:52

can110

総合スコア38266

kikutalk

2019/01/13 07:39

ご回答ありがとうございます。実行したところ下記のようなErrorMsgが返りました。これから外出しますので、帰宅したら内容を調べていきたいと思います。 --- Traceback (most recent call last): File "test5.py", line 22, in <module> print(e) # Yahoo!ニュース File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 13-16: character maps to <undefined>

can110

2019/01/13 08:28

ひとまずprint(e) -> print(e.text)としてください。とはいえ提示エラーは消えない可能性高いですが。あとは実行環境（コマンドプロンプト、IDE上）の標準出力のエンコーディングによるので現時点ではなんとも云えません。

行動規範の内容に同意します

現状は下記のような出力となります。

b'Yahoo!\xe3\x83\x8b\xe3\x83\xa5\xe3\x83\xbc\xe3\x82\sb9'

エンコードしたらバイト列になり、人間に読めなくなるのは当然といえば当然です。

~~当該Webページの文字コードはShift-jisでした。~~
追記：勘違いだったかも。

Python
1import requests
2from bs4 import BeautifulSoup
3
4url = 'http://news.yahoo.co.jp/topics'
5r = requests.get(url)
6
7# r.encoding = 'shift_jis'  この行は不要なようです。
8soup = BeautifulSoup(r.content, 'html.parser')
9
10elements = soup.find_all('title')
11for e in elements:
12    print(e)