質問編集履歴
3
質問削除の取り消し
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
このページの映画レビューをすべて取得したい
|
test
CHANGED
@@ -1 +1,35 @@
|
|
1
|
+
映画に関するレビューのスクレイピングを学習しているのですが1ページ目を取得することが限界で一つの作品に対するすべてのレビューを取得する方法が分からず困っています。例として以下のURLのページを見ると現時点で182件のレビューがついています。これらを一度にすべて取得したいのですが方法がわからないためスクレイピングに詳しいかたよろしくお願いいたします。
|
2
|
+
|
3
|
+
https://movies.yahoo.co.jp/movie/%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3%E3%82%BA8/363392/review/
|
4
|
+
|
5
|
+
```ここに言語を入力
|
6
|
+
|
7
|
+
import requests
|
8
|
+
|
9
|
+
from bs4 import BeautifulSoup
|
10
|
+
|
11
|
+
URL = "https://movies.yahoo.co.jp/review/"
|
12
|
+
|
13
|
+
BASE_URL = "https://movies.yahoo.co.jp"
|
14
|
+
|
15
|
+
soup = BeautifulSoup(requests.get(url=URL).content, "lxml")
|
16
|
+
|
17
|
+
links = soup.find_all("a", class_="listview__element--right-icon")
|
18
|
+
|
19
|
+
review_urls = []
|
20
|
+
|
21
|
+
for link in links:
|
22
|
+
|
23
|
+
review_urls.append(f"{BASE_URL}{link.get('href')}")
|
24
|
+
|
25
|
+
results = []
|
26
|
+
|
1
|
-
|
27
|
+
for review_url in review_urls:
|
28
|
+
|
29
|
+
soup = BeautifulSoup(requests.get(url=review_url).content, "lxml")
|
30
|
+
|
31
|
+
results.append(soup.find("p", class_="text-small text-break text-readable p1em").text.strip())
|
32
|
+
|
33
|
+
[print(result) for result in results]
|
34
|
+
|
35
|
+
```
|
2
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
12345678910
|
test
CHANGED
File without changes
|
1
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,49 +1 @@
|
|
1
|
-
映画に関するレビューのスクレイピングを学習しているのですが1ページ目を取得することが限界で一つの作品に対するすべてのレビューを取得する方法が分からず困っています。例として以下のURLのページを見ると現時点で182件のレビューがついています。これらを一度にすべて取得したいのですが方法がわからないためスクレイピングに詳しいかたよろしくお願いいたします。
|
2
|
-
|
3
|
-
|
4
|
-
|
5
|
-
https://movies.yahoo.co.jp/movie/%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3%E3%82%BA8/363392/review/
|
6
|
-
|
7
|
-
|
8
|
-
|
9
|
-
```ここに言語を入力
|
10
|
-
|
11
|
-
import requests
|
12
|
-
|
13
|
-
from bs4 import BeautifulSoup
|
14
|
-
|
15
|
-
URL = "https://movies.yahoo.co.jp/review/"
|
16
|
-
|
17
|
-
BASE_URL = "https://movies.yahoo.co.jp"
|
18
|
-
|
19
|
-
|
20
|
-
|
21
|
-
soup = BeautifulSoup(requests.get(url=URL).content, "lxml")
|
22
|
-
|
23
|
-
|
24
|
-
|
25
|
-
links = soup.find_all("a", class_="listview__element--right-icon")
|
26
|
-
|
27
|
-
|
28
|
-
|
29
|
-
review_urls = []
|
30
|
-
|
31
|
-
for link in links:
|
32
|
-
|
33
|
-
review_urls.append(f"{BASE_URL}{link.get('href')}")
|
34
|
-
|
35
|
-
|
36
|
-
|
37
|
-
results = []
|
38
|
-
|
39
|
-
|
1
|
+
123456789101234567891012345678910
|
40
|
-
|
41
|
-
soup = BeautifulSoup(requests.get(url=review_url).content, "lxml")
|
42
|
-
|
43
|
-
results.append(soup.find("p", class_="text-small text-break text-readable p1em").text.strip())
|
44
|
-
|
45
|
-
|
46
|
-
|
47
|
-
[print(result) for result in results]
|
48
|
-
|
49
|
-
```
|