[BS4] requests.getで取得した結果が文字化け

Question

こんにちは! [O'Reilly Japanカタログページ](https://www.oreilly.co.jp/catalog/)を`requests.get`で取得すると、日本語部分に文字化けが発生します。これまで何度かスクレイピングをした経験はあるのですが、文字化けが発生したのは初めてです。ゆくゆくは本のタイトルとリンクを取得し (Pythonに絞った結果を取得できれば更に嬉しい)、そのリンクに飛んで著者や価格、発行年を取得したいです。。。が、それ以前に文字化けの対処法がわからず困っています。 `f1 = open('r.txt', 'w', encoding = 'utf-8')`としてみましたが、結果が変わりませんorz どうか知恵をお貸しください(._.) **現在のコード** ``` from bs4 import BeautifulSoup import requests import warnings warnings.filterwarnings('ignore') r = requests.get("https://www.oreilly.co.jp/catalog/") html_doc = r.text soup = BeautifulSoup(html_doc) print(soup.prettify()) f1 = open('r.txt', 'w', encoding = 'utf-8') f1.write(html_doc) ``` **取得データ一部** ``` 4-87311-061-0Javaãããã¯ã¼ã¯ããã°ã©ãã³ã° ç¬¬2ç6,264 2001/10/01 ``` **望む結果** ``` 4-87311-061-0Javaネットワークプログラミング第2版6,264 2001/10/01 ``` ![oreilly](4f07120609ebbf075299f984ad23b5cc.png) # できましたー(≧∇≦) hayataka2049様のアドバイスで`r.encoding = r.apparent_encoding`を追加したら日本語がきちんと表示されるようになりました<3 **完成コード** ``` import requests import warnings warnings.filterwarnings('ignore') r = requests.get("https://www.oreilly.co.jp/catalog/") r.encoding = r.apparent_encoding html_doc = r.text soup = BeautifulSoup(html_doc) print(soup.title) f1 = open('r.txt', 'w') f1.write(html_doc) ``` # GitHubにも上げました！ [O'Reilly Scraping](https://github.com/Yukiya025/CommerceScraper)

Accepted Answer

requetsで取った時点で化けてる気がするので、リンクを参考に修正してみてください。

[Requestsで日本語を扱うときの文字化けを直す](https://qiita.com/nittyan/items/d3f49a7699296a58605b)