質問編集履歴

3

質問削除の取り消し

2018/08/31 02:51

投稿

zdadadadadadadz
zdadadadadadadz

スコア11

test CHANGED
@@ -1 +1 @@
1
- 12345678910
1
+ このページの映画レビューをすべて取得したい
test CHANGED
@@ -1 +1,35 @@
1
+ 映画に関するレビューのスクレイピングを学習しているのですが1ページ目を取得することが限界で一つの作品に対するすべてのレビューを取得する方法が分からず困っています。例として以下のURLのページを見ると現時点で182件のレビューがついています。これらを一度にすべて取得したいのですが方法がわからないためスクレイピングに詳しいかたよろしくお願いいたします。
2
+
3
+ https://movies.yahoo.co.jp/movie/%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3%E3%82%BA8/363392/review/
4
+
5
+ ```ここに言語を入力
6
+
7
+ import requests
8
+
9
+ from bs4 import BeautifulSoup
10
+
11
+ URL = "https://movies.yahoo.co.jp/review/"
12
+
13
+ BASE_URL = "https://movies.yahoo.co.jp"
14
+
15
+ soup = BeautifulSoup(requests.get(url=URL).content, "lxml")
16
+
17
+ links = soup.find_all("a", class_="listview__element--right-icon")
18
+
19
+ review_urls = []
20
+
21
+ for link in links:
22
+
23
+ review_urls.append(f"{BASE_URL}{link.get('href')}")
24
+
25
+ results = []
26
+
1
- 123456789101234567891012345678910
27
+ for review_url in review_urls:
28
+
29
+ soup = BeautifulSoup(requests.get(url=review_url).content, "lxml")
30
+
31
+ results.append(soup.find("p", class_="text-small text-break text-readable p1em").text.strip())
32
+
33
+ [print(result) for result in results]
34
+
35
+ ```

2

2018/08/31 02:51

投稿

退会済みユーザー
test CHANGED
@@ -1 +1 @@
1
- このページの映画レビューをすべて取得したい
1
+ 12345678910
test CHANGED
File without changes

1

2018/08/29 11:02

投稿

zdadadadadadadz
zdadadadadadadz

スコア11

test CHANGED
File without changes
test CHANGED
@@ -1,49 +1 @@
1
- 映画に関するレビューのスクレイピングを学習しているのですが1ページ目を取得することが限界で一つの作品に対するすべてのレビューを取得する方法が分からず困っています。例として以下のURLのページを見ると現時点で182件のレビューがついています。これらを一度にすべて取得したいのですが方法がわからないためスクレイピングに詳しいかたよろしくお願いいたします。
2
-
3
-
4
-
5
- https://movies.yahoo.co.jp/movie/%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3%E3%82%BA8/363392/review/
6
-
7
-
8
-
9
- ```ここに言語を入力
10
-
11
- import requests
12
-
13
- from bs4 import BeautifulSoup
14
-
15
- URL = "https://movies.yahoo.co.jp/review/"
16
-
17
- BASE_URL = "https://movies.yahoo.co.jp"
18
-
19
-
20
-
21
- soup = BeautifulSoup(requests.get(url=URL).content, "lxml")
22
-
23
-
24
-
25
- links = soup.find_all("a", class_="listview__element--right-icon")
26
-
27
-
28
-
29
- review_urls = []
30
-
31
- for link in links:
32
-
33
- review_urls.append(f"{BASE_URL}{link.get('href')}")
34
-
35
-
36
-
37
- results = []
38
-
39
- for review_url in review_urls:
1
+ 123456789101234567891012345678910
40
-
41
- soup = BeautifulSoup(requests.get(url=review_url).content, "lxml")
42
-
43
- results.append(soup.find("p", class_="text-small text-break text-readable p1em").text.strip())
44
-
45
-
46
-
47
- [print(result) for result in results]
48
-
49
- ```