pythonでスクレイピングについて学習中です

前提・実現したいこと

https://movies.yahoo.co.jp/review/
このサイトのユーザーレビューの内容だけをスクレイピングで抜き出したのですが、あるブログサイトを参考に自分で行ってみたのですがうまくできないため間違いを訂正していただけると助かります。

該当のソースコード

import urllib.request
from bs4 import BeautifulSoup

url = 'https://movies.yahoo.co.jp/review/'

ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/55.0.2883.95 Safari/537.36 '

req = urllib.request.Request(url, headers={'User-Agent': ua})
html = urllib.request.urlopen(req)
soup = BeautifulSoup(html, "html.parser")

text-small text-break text-readable p1em = soup.find('p', attrs={'class':'text-small text-break text-readable p1em'})

試したこと

タグのひっぱってくる場所などをいろいろ変えてみたのですがうまくいきません、、、

補足情報（FW/ツールのバージョンなど）

https://note.nkmk.me/python-beautiful-soup-scraping-yahoo/
参考にしたサイトです。

mather

2018/07/11 04:45

Pythonのソースコードはシンタックスハイライトを使って書いてください。 https://teratail.com/help/question-tips#questionTips3-5-1

mather

2018/07/11 04:47

「うまくできないため」何がうまくいかないのか、具体的に書いてください。エラーが起こっているとか、〇〇となることを期待しているが△△となってしまう、とか。

行動規範の内容に同意します

回答1件

ベストアンサー

text-small text-break text-readable p1em = soup.find('p', attrs={'class':'text-small text-break text-readable p1em'})

取り出したいクラスが間違っているようでした。取り出したいクラスが複数あるので
findではなくfind_allをつかってみました。

注意点としてはレビューが書いてあるものと、「レビューにネタバレが含まれている」という注意書きクラスが分かれているのでfor文で回しても所どころ抜けている状態になっています。

import urllib.request
from bs4 import BeautifulSoup

url = 'https://movies.yahoo.co.jp/review/'

ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '\
'AppleWebKit/537.36 (KHTML, like Gecko) '\
'Chrome/55.0.2883.95 Safari/537.36 '

req = urllib.request.Request(url, headers={'User-Agent': ua})
html = urllib.request.urlopen(req)
soup = BeautifulSoup(html, "html.parser")


reviews = soup.find_all("p",text=True, class_="text-xsmall text-overflow clear no-space-bottom" ,)
#通常のレビューが書いてあるpタグのクラス


#これだけだとpタグと前後に空白ががついてくるので
for review in reviews:
    r = review.string #文字列だけを抽出
    print(r.replace(' ',''))#replaceで空白を置換


un_reviews = soup.find_all("p", class_="text-xsmall clear")
#レビューが書いていないpタグのクラス 別のクラスが付いているようです


#これだけだとpタグと前後に空白ががついてくるので
for un_review in un_reviews:
    u_r = un_review.string #文字列だけを抽出
    print(u_r.replace(' ',''))#replaceで空白を置換