htmlから商品説明文を取り出したい

いつもお世話になっております。
スクレイピングでの質問です。

下記のようにショップページから商品説明文を抜き出そうとしていますがエラーが出てしまいます。

テキスト文で試すとうまくいくのですが、htmlからはうまくいきません。

商品説明文は

説明文が入っている

サイズなど

となっております。

うまく抜き出すにはどのようにすればよいのでしょうか？

よろしくおねがいします。

python
1import requests
2from bs4 import BeautifulSoup
3from urllib.parse import urljoin
4import re
5
6url2 ='http://militaryshop.jp/products/detail.php?product_id=6985'
7
8headers = {
9    'User-Agent':
10    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
11}
12
13r = requests.get(url2, headers=headers)
14
15if r.status_code == requests.codes.ok:
16    soup = BeautifulSoup(r.content, 'html5lib')
17
18print (soup.select('#syouhin_title'))#ID要素から抜き出し
19mojii = soup.select('.main_comment')#class要素から抜き出し
20pprint (moji)
21moji = moji.split('<!--START-->')[1]
22moji = moji.split('<!--END-->')[0]
23print(moji)

エラー表示
`AttributeError
Traceback (most recent call last)
<ipython-input-21-239b9837faa6> in <module>
22 #moji = soup
23 pprint (moji)
---> 24 moji = moji.split('')[1]
25 moji = moji.split('')[0]
26 print(moji)

AttributeError: 'list' object has no attribute 'split'
`

行動規範の内容に同意します

回答2件

ベストアンサー

KojiDoi さんの指摘の通り、はってあるコードだとまず soup.select の結果がmoji に格納されませんね。エラーはそのミスがない状態で出るもののようです。

その後 moji で split メソッドを呼び出そうとしていますが、split メソッドがあるのは str 型で、 moji は list (正確には bs4.element.Tag が入っている list)であるので、求める結果の為には別のやり方が必要です。

bs4.element.Tag 型は str 型にキャスト出来るようですので、以下の様なやり方がひとつ考えられます。
これを

python
1moji = moji.split('<!--START-->')[1]
2moji = moji.split('<!--END-->')[0]

このように。

python
1moji = str(moji[0]).split('<!--START-->')[1]
2moji = moji.split('<!--END-->')[0]

投稿2019/07/26 10:25

yu81

総合スコア90

HirokiTomimura

2019/07/26 10:45 編集

yu81様アドバイス有難うございます。思うように動いてくれました！どうもありがとうございました。今後ともよろしくおねがいします。 ''' import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import re url2 ='http://militaryshop.jp/products/detail.php?product_id=6985' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko' } r = requests.get(url2, headers=headers) if r.status_code == requests.codes.ok: soup = BeautifulSoup(r.content, 'html5lib') print (soup.select('#syouhin_title'))#ID要素から抜き出し moji = soup.select('.main_comment')#class要素から抜き出し moji = str(moji[0]).split('')[1] moji = moji.split('')[0] print(moji) '''

行動規範の内容に同意します