以下のコードで h3要素の切り出しは出来ているようです
import requests from bs4 import BeautifulSoup url = 'http://yasumasa.jp/2020/08/21/post_4688.html' r = requests.get(url) soup = BeautifulSoup(r.text, 'html.parser') haikus = soup.select('#center > div > h3') for haiku in haikus: print(haiku) txt = haiku.text print(txt) コード
しかし、h3の中身は日本語として認識されていないようです
デバッグビューの変数txtの値は以下の通りです
txt: 'é°¯é\x9b²å\x80\x8bã\x80\x85ä¸\x80å\x88\x87äº\x8bå\x9c°ä¸\x8aã\x81«ã\x81\x82ã\x82\x8a'
htmlの文字コードは utf-8と指定されています
ここをどのようにしたら、h3の中身が正しい日本語として取得できるでしょうか
ご助力お願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/10/01 08:31 編集