いつもお世話になっております。
スクレイピングでの質問です。
下記のようにショップページから商品説明文を抜き出そうとしていますがエラーが出てしまいます。
テキスト文で試すとうまくいくのですが、htmlからはうまくいきません。
商品説明文は
<!--START-->説明文が入っているサイズなど
<!--END-->となっております。
うまく抜き出すにはどのようにすればよいのでしょうか?
よろしくおねがいします。
python
1import requests 2from bs4 import BeautifulSoup 3from urllib.parse import urljoin 4import re 5 6url2 ='http://militaryshop.jp/products/detail.php?product_id=6985' 7 8headers = { 9 'User-Agent': 10 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' 11} 12 13r = requests.get(url2, headers=headers) 14 15if r.status_code == requests.codes.ok: 16 soup = BeautifulSoup(r.content, 'html5lib') 17 18print (soup.select('#syouhin_title'))#ID要素から抜き出し 19mojii = soup.select('.main_comment')#class要素から抜き出し 20pprint (moji) 21moji = moji.split('<!--START-->')[1] 22moji = moji.split('<!--END-->')[0] 23print(moji)
エラー表示
`AttributeError
Traceback (most recent call last)
<ipython-input-21-239b9837faa6> in <module>
22 #moji = soup
23 pprint (moji)
---> 24 moji = moji.split('<!--START-->')[1]
25 moji = moji.split('<!--END-->')[0]
26 print(moji)
AttributeError: 'list' object has no attribute 'split'
`
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/07/26 10:45 編集