Python3で発生したエラー:AttributeError: 'str' object has no attribute 'text'について
- 評価
- クリップ 0
- VIEW 3,158
前提・実現したいこと
食べログから福岡市の全ラーメン店の店舗名・食べログ点数・口コミ件数・口コミを取得したい。
発生している問題・エラーメッセージ
ページ指定を1ページの場合、全データ取得できます。しかし、for page in range(1,10)のように2ページ以上にすると、下記のようなエラーが発生します。
Traceback (most recent call last):
File "scraping_ramen.py", line 51, in <module>
review_cnt = review_count.text
AttributeError: 'str' object has no attribute 'text'
該当のソースコード
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
list_df = pd.DataFrame(columns=['店舗名', '食べログ点数', '口コミ件数','口コミ'])
score_list = []
store_list = []
link_list = []
#店舗一覧ページ
#for page in range(1):
for page in range(1, 10):
url = 'https://tabelog.com/fukuoka/C40130/rstLst/ramen/' + str(page) + '/?sk=%E3%83%A9%E3%83%BC%E3%83%A1%E3%83%B3&svd=20191008&svt=1900&svps=2'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
#店舗一覧ページから食べログスコア一覧を取得
score_tags = soup.find_all('span', class_='list-rst__rating-val')
for score in score_tags:
#食べログスコア一覧が格納されたリスト作成
score_list.append(score.text)
#店舗一覧ページから店舗名一覧を取得
store_tags = soup.find_all('a', class_='list-rst__rst-name-target cpy-rst-name')
for store_tag in store_tags:
#店舗詳細ページのリンクが格納されたリスト作成
link_list.append(store_tag.get('href'))
#店舗名一覧が格納されたリスト作成
store_name = store_tag.text
store_name = store_name.replace(' ', '')
store_list.append(store_name)
for score, store_name, link in zip(score_list, store_list, link_list):
if not score == '-':
#食べログスコアが3.5以上の店舗のみ、店舗詳細ページにアクセス
if float(score) > 3.5:
response = requests.get(link)
soup = BeautifulSoup(response.text, 'lxml')
#口コミ一覧ページのリンクを取得
review_tag_id = soup.find('li', id='rdnavi-review')
review_tag_href = review_tag_id.a.get('href')
#口コミ一覧ページ
response = requests.get(review_tag_href)
soup = BeautifulSoup(response.text, 'lxml')
#口コミ件数取得
review_counts = soup.find('li', id='rdnavi-review')
review_count = review_counts.find('span', class_='rstdtl-navi__total-count')
review_cnt = review_count.text
#口コミ詳細ページのリンク取得
review_comments = soup.find_all('a', class_='rvw-item__title-target')
for review_comment in review_comments:
#口コミ詳細ページ
response = requests.get('https://tabelog.com' + review_comment.get('href'))
soup = BeautifulSoup(response.text, 'lxml')
#口コミ取得
review_tags = soup.find_all('div', class_='rvw-item__rvw-comment')
review = review_tags[0].p.text.encode('cp932', 'ignore')
review = review.decode('cp932')
review = review.replace('\n','')
review = review.replace(' ','')
review = review.replace(' ','')
#取得した項目
#store_name = 店舗名
#score = 食べログ点数
#review_cnt = 口コミ件数
#review = 口コミ
tmp_se = pd.DataFrame([store_name, score, review_cnt, review], index=list_df.columns).T
list_df = list_df.append(tmp_se)
print(list_df)
#csv保存
list_df.to_csv('list_ramen.csv', mode = 'a', encoding='cp932')
解析対象となるHTML
<li id="rdnavi-review" class="rstdtl-navi__list-item js-rstdtl-navi-list-item">
<div class="rstdtl-navi__list-item-inner">
<a class="mainnavi" href="https://tabelog.com/fukuoka/A4001/A400102/40007006/dtlrvwlst/"><span>口コミ</span><span class="rstdtl-navi__total-count"><em>174</em></span></a>
<ol class="js-rstdtl-navi-sublist rstdtl-navi__sublist">
<li class="rstdtl-navi__sublist-item">
<a href="https://tabelog.com/fukuoka/A4001/A400102/40007006/dtlrvwlst/" id="review">
<span class="rstdtl-navi__sublist-item-genre">口コミ<span class="rstdtl-navi__sublist-item-count">(<em>174</em>)</span></span> </a>
</li>
試したこと
・review_count.textをreview_count.stringに変換。結果は変わりませんでした。
・review_count.textを避けるため、review_cnt = review_counts.find('span', class_='rstdtl-navi__total-count').textに変えましたが、結果は変わりませんでした。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
check解決した方法
0
review_cnt = review_count.text
if review_cnt is not None:
review_cnt = review_cnt
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.37%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
shiracamus
2019/12/13 15:11
エラー行の直前に
print(type(review_count), review_count)
を入れて変数の内容を確認してみるとどうなりますか?
yusuke1111
2019/12/13 15:20
<class 'bs4.element.Tag'> <span class="rstdtl-navi__total-count"><em>174</em></span>になりました。
shiracamus
2019/12/13 15:55
それが表示された直後にエラーで落ちるのですか?
shiracamus
2019/12/13 16:28
試してみたところ、
<span class="rstdtl-navi__total-count">
のない口コミがあって、count が None になる場合があるようですよ。
None ならスキップする処理が必要なのでは?
yusuke1111
2019/12/14 11:23
ご教授していただきありがとうございます。取得できました。
review_cnt = review_count.text
if review_cnt is not None:
review_cnt = review_cnt
siruku6
2019/12/21 17:17
解決していれば解決済みにしていただけるとよいかと思いました。
他の質問が埋もれてしまうため。