【Python】requestsで文字化けする

前提・実現したいこと

Pythonでスクレイピングをしているのですが、取得したデータが文字化けしてしまいます。どうすれば良いでしょうか。

発生している問題・エラーメッセージ

{'url': 'https://db.netkeiba.com/race/201906010111/', 'title': 'Âè68²óÆü´©¥¹¥Ý¾ÞÃæ»³¶âÇÕ(G3)', 'race data': '¼Ç±¦2000m\xa0/\xa0Å·¸õ : À²\xa0/\xa0¼Ç : ÎÉ\xa0/\xa0È¯Áö : 15:35', 'chaku': '1'}

該当のソースコード

from typing import Iterator
import time
import re
import requests
import lxml.html

def main():
    
    session = requests.Session()
    response = requests.get('https://db.netkeiba.com/?pid=race_list&word=%C6%FC%B4%A9%A5%B9%A5%DD%A1%BC%A5%C4%BE%DE%C3%E6%BB%B3%B6%E2%C7%D5')
    urls = scrape_list_page(response)
    for url in urls:
        time.sleep(1)
        response = session.get(url)
        edata = scrape_detail_page(response)
        print(edata)
        break
        

def scrape_list_page(response: requests.Response) -> Iterator[str]:
    
    html = lxml.html.fromstring(response.text)
    html.make_links_absolute(response.url)
    
    for a in html.cssselect('a[title*="(G3)"]'):
        url = a.get('href')
        yield url
        

def scrape_detail_page(response: requests.Response) -> dict:
    
    html = lxml.html.fromstring(response.text)
    edata = {
        'url' : response.url,
        'title' : html.cssselect('dl.racedata.fc h1')[0].text_content(),
        'race data' : html.cssselect('dl.racedata.fc span')[0].text_content(),
    }
    return edata


if __name__ == '__main__':
    main()

試したこと

response.encoding = response.apparent_encodingは試しましたが、同じ結果が出力されました。

行動規範の内容に同意します

回答1件

ベストアンサー

取得した HTML データへのアクセスを .text ではなく、 .content としてみてはどうでしょうか

diff
1- html = lxml.html.fromstring(response.text)
2+ html = lxml.html.fromstring(response.content)

投稿2019/10/16 09:41

tiitoi

総合スコア21956

退会済みユーザー

2019/10/16 09:48

出来ました！ありがとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

【Python】requestsで文字化けする

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

関連した質問