pythonでスクレイピングについて学習しています。
先日こちらのサイトで大変参考になる解答をしていただいたのですがどうしても自分の抜き出したい情報を抜き出す方法がわからなかったので再び質問させていただきます。
スクレイピングで抜き出すためのURLは以下の通りです。
https://movies.yahoo.co.jp/review/
このサイトはヤフー映画のユーザーを閲覧できるサイトなのですがトップである新着ユーザーレビューのページでは各映画に対するレビューが途中までしか表示されていません。前回解答いただいたコードでトップページに表示されたいるユーザーレビューは抜き出せるのですがレビュー全文を抜き出せません。
レビューの全文を抜き出すにはほかにURLをたどって、たどった先のURLもコードに書き込む必要があるのでしょうか?
import urllib.request from bs4 import BeautifulSoup url = 'https://movies.yahoo.co.jp/review/' ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '\ 'AppleWebKit/537.36 (KHTML, like Gecko) '\ 'Chrome/55.0.2883.95 Safari/537.36 ' req = urllib.request.Request(url, headers={'User-Agent': ua}) html = urllib.request.urlopen(req) soup = BeautifulSoup(html, "html.parser") reviews = soup.find_all("p",text=True, class_="text-xsmall text-overflow clear no-space-bottom" ,) for review in reviews: r = review.string print(r.replace(' ','')) un_reviews = soup.find_all("p", class_="text-xsmall clear") for un_review in un_reviews: u_r = un_review.string print(u_r.replace(' ',''))
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/07/24 07:22
2018/07/24 07:50
2018/07/25 13:25