質問編集履歴

1

投稿者のスクレイピングの知識レベルと、仮に考えた方法

2018/09/25 15:41

投稿

takano1709
takano1709

スコア10

test CHANGED
File without changes
test CHANGED
@@ -12,9 +12,9 @@
12
12
 
13
13
  【抽出したいサイト】
14
14
 
15
- https://fitness.geomedian.com/area/
15
+ [https://fitness.geomedian.com/area/](https://fitness.geomedian.com/area/)
16
16
 
17
- https://movie.walkerplus.com/theater/
17
+ [https://movie.walkerplus.com/theater/](https://movie.walkerplus.com/theater/)
18
18
 
19
19
 
20
20
 
@@ -29,3 +29,35 @@
29
29
  1ページごとの抽出はチュートリアルを見ながらやると何回かに1回成功します。
30
30
 
31
31
  そもそもHPの構造がリスト上になっていないため、チュートリアルの方法では何ともならず、ほしい情報は全部リンクがとんだ最後の階層に情報があるので拾えません。
32
+
33
+
34
+
35
+
36
+
37
+ 【追記】
38
+
39
+ ちなみに、私の仕事は広告代理店のパートの事務で、コーディングもプログラミングもやったことがない職種です。
40
+
41
+ 前任者が私の入社前に辞めてしまっており、誰もわかる人がいなかったのですが、私がHTML(個人サイト作成レベル)とエクセルのマクロを組めるという理由で、上司から任されてしまいました。
42
+
43
+ HTMLの基礎(<head>、body、a href=、img src=)などは分かりますが、それ以上はあまり詳しく分かりません。
44
+
45
+ 今週までに上記の2サイトの他に+3サイト、スクレイピングしないといけませんので、焦っています。
46
+
47
+
48
+
49
+ 何度か自分なりにやってみたところで下記の方法を考えてみたのですが。
50
+
51
+ ②はなんとかできたものの、①ができず困っています。
52
+
53
+
54
+
55
+ 【方法】抽出したい要素がある各ページのURLを抽出→すべてのURLをoctoparseに貼り付けて抽出
56
+
57
+
58
+
59
+ ①抽出したい情報のある各階層ページ([https://fitness.geomedian.com/tokyo/central/](https://fitness.geomedian.com/tokyo/central/))の一つ手前のページで、各階層のURLを抽出
60
+
61
+ ↓↓
62
+
63
+ ②各階層のURLをすべてoctoprseに貼り付けて、それぞれの要素を抽出