<実現したい事>
PyQueryを使って指定したファイルからurlとそのタイトルを抜き出す。
<今やったこと>
ファイル指定時にENCODING="UTF-8"エンコードを指定した。
ファイルを開いてからPyQueryに渡した。
with open('dp.html',encoding='utf-8') as f:
d = pq(filename=f )
ちなみにhtmlファイルには <meta charset="UTF-8">が設定してありました。
<起きているエラー>
UnicodeDecodeError: 'cp932' codec can't decode byte 0x8d in position 147: illegal multibyte sequence
python
1from pyquery import PyQuery as pq 2 3 4d = pq(filename='dp.html',encoding='utf8') 5d.make_links_absolute('https://gihyo.jp/dp') 6for a in d('#listBook > li > a[itemprop="url"]'): 7 url = d(a).attr('href') 8 p = d(a).find('p[itemprop="name"]').eq(0) 9 title = p.text() 10 11print(url,title)
誰かわかる方教えてください。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/01/14 07:49
2022/01/14 08:56 編集
2022/01/14 15:47
2022/01/15 01:15
2022/01/15 03:28
2022/01/15 03:46 編集
2022/01/15 05:16
2022/01/15 05:57
2022/01/15 14:04