スクレイピングしたい...

Question

pythonでスクレイピングについて学習しています。
先日こちらのサイトで大変参考になる解答をしていただいたのですがどうしても自分の抜き出したい情報を抜き出す方法がわからなかったので再び質問させていただきます。
スクレイピングで抜き出すためのURLは以下の通りです。
https://movies.yahoo.co.jp/review/
このサイトはヤフー映画のユーザーを閲覧できるサイトなのですがトップである新着ユーザーレビューのページでは各映画に対するレビューが途中までしか表示されていません。前回解答いただいたコードでトップページに表示されたいるユーザーレビューは抜き出せるのですがレビュー全文を抜き出せません。
レビューの全文を抜き出すにはほかにURLをたどって、たどった先のURLもコードに書き込む必要があるのでしょうか？











```
import urllib.request
from bs4 import BeautifulSoup

url = 'https://movies.yahoo.co.jp/review/'

ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '\
'AppleWebKit/537.36 (KHTML, like Gecko) '\
'Chrome/55.0.2883.95 Safari/537.36 '

req = urllib.request.Request(url, headers={'User-Agent': ua})
html = urllib.request.urlopen(req)
soup = BeautifulSoup(html, "html.parser")

reviews = soup.find_all("p",text=True, class_="text-xsmall text-overflow clear no-space-bottom" ,)

for review in reviews:
    r = review.string 
    print(r.replace(' ',''))


un_reviews = soup.find_all("p", class_="text-xsmall clear")

for un_review in un_reviews:
    u_r = un_review.string 
    print(u_r.replace(' ',''))
```

Accepted Answer

新着ユーザーレヴューのページから各レヴューのURLを取得して、各URLに対してリクエストをして、レヴューを取得するようにします。 1つの文字列として取得しています。改行が必要な場合は
タグを変換すれば可能かと思います。 ```python import requests from bs4 import BeautifulSoup URL = "https://movies.yahoo.co.jp/review/" BASE_URL = "https://movies.yahoo.co.jp" soup = BeautifulSoup(requests.get(url=URL).content, "lxml") links = soup.find_all("a", class_="listview__element--right-icon") review_urls = [] for link in links: review_urls.append(f"{BASE_URL}{link.get('href')}") results = [] for review_url in review_urls: soup = BeautifulSoup(requests.get(url=review_url).content, "lxml") results.append(soup.find("p", class_="text-small text-break text-readable p1em").text.strip()) [print(result) for result in results] ```

関連した質問