質問編集履歴
4
追記の表示を追加しました
test
CHANGED
File without changes
|
test
CHANGED
@@ -132,7 +132,7 @@
|
|
132
132
|
|
133
133
|
## コード
|
134
134
|
|
135
|
-
### スクレイピングするHTML
|
135
|
+
### スクレイピングするHTML(整形)
|
136
136
|
|
137
137
|
- sample.html
|
138
138
|
|
@@ -188,7 +188,7 @@
|
|
188
188
|
|
189
189
|
|
190
190
|
|
191
|
-
### 修正したコード(Ruby)
|
191
|
+
### 追記:修正したコード(Ruby)
|
192
192
|
|
193
193
|
```ruby
|
194
194
|
|
3
コードの順番を変更しました
test
CHANGED
File without changes
|
test
CHANGED
@@ -188,7 +188,7 @@
|
|
188
188
|
|
189
189
|
|
190
190
|
|
191
|
-
### 修正したコード
|
191
|
+
### 修正したコード(Ruby)
|
192
192
|
|
193
193
|
```ruby
|
194
194
|
|
@@ -206,6 +206,68 @@
|
|
206
206
|
|
207
207
|
|
208
208
|
|
209
|
+
foo = page.xpath("//div[@class='aaa']//text()")
|
210
|
+
|
211
|
+
bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
|
212
|
+
|
213
|
+
extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
|
214
|
+
|
215
|
+
|
216
|
+
|
217
|
+
p extracted_datas
|
218
|
+
|
219
|
+
|
220
|
+
|
221
|
+
# 現状だと下記のようにデータが取得されます
|
222
|
+
|
223
|
+
#[
|
224
|
+
|
225
|
+
# "ooo",
|
226
|
+
|
227
|
+
# "qqq",
|
228
|
+
|
229
|
+
# "yyy",
|
230
|
+
|
231
|
+
# "zzz"
|
232
|
+
|
233
|
+
#]
|
234
|
+
|
235
|
+
|
236
|
+
|
237
|
+
# 理想は下記のようにデータが取得されること
|
238
|
+
|
239
|
+
#[
|
240
|
+
|
241
|
+
# "ooopppqqq",
|
242
|
+
|
243
|
+
# "yyy",
|
244
|
+
|
245
|
+
# "zzz"
|
246
|
+
|
247
|
+
#]
|
248
|
+
|
249
|
+
```
|
250
|
+
|
251
|
+
|
252
|
+
|
253
|
+
### 現状のコード
|
254
|
+
|
255
|
+
```ruby
|
256
|
+
|
257
|
+
require 'mechanize'
|
258
|
+
|
259
|
+
|
260
|
+
|
261
|
+
agent = Mechanize.new
|
262
|
+
|
263
|
+
# sample.html のコードが含まれるurlから情報を取得
|
264
|
+
|
265
|
+
page = agent.get(url)
|
266
|
+
|
267
|
+
html_infos = page.search('.aaa')
|
268
|
+
|
269
|
+
|
270
|
+
|
209
271
|
extracted_datas = []
|
210
272
|
|
211
273
|
html_infos.each do |ele|
|
@@ -215,67 +277,3 @@
|
|
215
277
|
end
|
216
278
|
|
217
279
|
```
|
218
|
-
|
219
|
-
|
220
|
-
|
221
|
-
### 現状のコード
|
222
|
-
|
223
|
-
- main.rb
|
224
|
-
|
225
|
-
```ruby
|
226
|
-
|
227
|
-
require 'mechanize'
|
228
|
-
|
229
|
-
|
230
|
-
|
231
|
-
agent = Mechanize.new
|
232
|
-
|
233
|
-
# sample.html のコードが含まれるurlから情報を取得
|
234
|
-
|
235
|
-
page = agent.get(url)
|
236
|
-
|
237
|
-
html_infos = page.search('.aaa')
|
238
|
-
|
239
|
-
|
240
|
-
|
241
|
-
foo = page.xpath("//div[@class='aaa']//text()")
|
242
|
-
|
243
|
-
bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
|
244
|
-
|
245
|
-
extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
|
246
|
-
|
247
|
-
|
248
|
-
|
249
|
-
p extracted_datas
|
250
|
-
|
251
|
-
|
252
|
-
|
253
|
-
# 現状だと下記のようにデータが取得されます
|
254
|
-
|
255
|
-
#[
|
256
|
-
|
257
|
-
# "ooo",
|
258
|
-
|
259
|
-
# "qqq",
|
260
|
-
|
261
|
-
# "yyy",
|
262
|
-
|
263
|
-
# "zzz"
|
264
|
-
|
265
|
-
#]
|
266
|
-
|
267
|
-
|
268
|
-
|
269
|
-
# 理想は下記のようにデータが取得されること
|
270
|
-
|
271
|
-
#[
|
272
|
-
|
273
|
-
# "ooopppqqq",
|
274
|
-
|
275
|
-
# "yyy",
|
276
|
-
|
277
|
-
# "zzz"
|
278
|
-
|
279
|
-
#]
|
280
|
-
|
281
|
-
```
|
2
回答を参考にrubyファイルを修正、HTMLを変更、修正。 取得される配列を掲載
test
CHANGED
File without changes
|
test
CHANGED
@@ -4,10 +4,16 @@
|
|
4
4
|
|
5
5
|
下記のHTMLコードから
|
6
6
|
|
7
|
-
- `<div class="aaa">`タグ内のテキスト(3件 -
|
7
|
+
- `<div class="aaa">`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
|
8
8
|
|
9
9
|
- `<span class="bbb">`タグ内のテキスト(α、β、θ)は抽出したくない
|
10
10
|
|
11
|
+
- 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい
|
12
|
+
|
13
|
+
- 2、3件目は`yyy`、`zzz`を取得したい
|
14
|
+
|
15
|
+
|
16
|
+
|
11
17
|
|
12
18
|
|
13
19
|
といった場合のコードの書き方が全くわかりません(m_ _m)
|
@@ -26,27 +32,33 @@
|
|
26
32
|
|
27
33
|
<div class="aaa">
|
28
34
|
|
29
|
-
<span class="bbb">α</span>
|
35
|
+
<span class="bbb">α</span>
|
36
|
+
|
30
|
-
|
37
|
+
ooo<a href="site_url">ppp</a>qqq
|
38
|
+
|
31
|
-
</div>
|
39
|
+
</div>
|
32
|
-
|
40
|
+
|
33
|
-
</li>
|
41
|
+
</li>
|
34
|
-
|
42
|
+
|
35
|
-
<li>
|
43
|
+
<li>
|
36
|
-
|
44
|
+
|
37
|
-
<div class="aaa">
|
45
|
+
<div class="aaa">
|
38
|
-
|
46
|
+
|
39
|
-
<span class="bbb">β</span>
|
47
|
+
<span class="bbb">β</span>
|
48
|
+
|
40
|
-
|
49
|
+
yyy
|
50
|
+
|
41
|
-
</div>
|
51
|
+
</div>
|
42
|
-
|
52
|
+
|
43
|
-
</li>
|
53
|
+
</li>
|
44
|
-
|
54
|
+
|
45
|
-
<li>
|
55
|
+
<li>
|
46
|
-
|
56
|
+
|
47
|
-
<div class="aaa">
|
57
|
+
<div class="aaa">
|
48
|
-
|
58
|
+
|
49
|
-
<span class="bbb">θ</span>
|
59
|
+
<span class="bbb">θ</span>
|
60
|
+
|
61
|
+
zzz
|
50
62
|
|
51
63
|
</div>
|
52
64
|
|
@@ -76,10 +88,134 @@
|
|
76
88
|
|
77
89
|
### 期待する動作
|
78
90
|
|
79
|
-
- `<div class="aaa">`タグ内のテキスト(3件 -
|
91
|
+
- `<div class="aaa">`タグ内のテキスト(3件 - ooopppqqq、yyy、zzz)を抽出したい
|
80
92
|
|
81
93
|
- `<span class="bbb">`タグ内のテキスト(α、β、θ)は抽出したくない
|
82
94
|
|
95
|
+
- 1件目は一番難儀で`α`は不要、`ooo`、aタグ内のテキスト`ppp`、aタグ直後の`qqq`を連結した`ooopppqqq`を取得したい
|
96
|
+
|
97
|
+
- 2、3件目は`yyy`、`zzz`を取得したい
|
98
|
+
|
99
|
+
```ruby
|
100
|
+
|
101
|
+
# 現状だと下記のようにデータが取得されます
|
102
|
+
|
103
|
+
#[
|
104
|
+
|
105
|
+
# "ooo",
|
106
|
+
|
107
|
+
# "qqq",
|
108
|
+
|
109
|
+
# "yyy",
|
110
|
+
|
111
|
+
# "zzz"
|
112
|
+
|
113
|
+
#]
|
114
|
+
|
115
|
+
|
116
|
+
|
117
|
+
# 理想は下記のようにデータが取得されること
|
118
|
+
|
119
|
+
#[
|
120
|
+
|
121
|
+
# "ooopppqqq",
|
122
|
+
|
123
|
+
# "yyy",
|
124
|
+
|
125
|
+
# "zzz"
|
126
|
+
|
127
|
+
#]
|
128
|
+
|
129
|
+
```
|
130
|
+
|
131
|
+
|
132
|
+
|
133
|
+
## コード
|
134
|
+
|
135
|
+
### スクレイピングするHTML
|
136
|
+
|
137
|
+
- sample.html
|
138
|
+
|
139
|
+
```html
|
140
|
+
|
141
|
+
<div class="list">
|
142
|
+
|
143
|
+
<ol>
|
144
|
+
|
145
|
+
<li>
|
146
|
+
|
147
|
+
<div class="aaa">
|
148
|
+
|
149
|
+
<span class="bbb">α</span>
|
150
|
+
|
151
|
+
ooo<a href="site_url">ppp</a>qqq
|
152
|
+
|
153
|
+
</div>
|
154
|
+
|
155
|
+
</li>
|
156
|
+
|
157
|
+
<li>
|
158
|
+
|
159
|
+
<div class="aaa">
|
160
|
+
|
161
|
+
<span class="bbb">β</span>
|
162
|
+
|
163
|
+
yyy
|
164
|
+
|
165
|
+
</div>
|
166
|
+
|
167
|
+
</li>
|
168
|
+
|
169
|
+
<li>
|
170
|
+
|
171
|
+
<div class="aaa">
|
172
|
+
|
173
|
+
<span class="bbb">θ</span>
|
174
|
+
|
175
|
+
zzz
|
176
|
+
|
177
|
+
</div>
|
178
|
+
|
179
|
+
</li>
|
180
|
+
|
181
|
+
</ol>
|
182
|
+
|
183
|
+
</div>
|
184
|
+
|
185
|
+
```
|
186
|
+
|
187
|
+
|
188
|
+
|
189
|
+
|
190
|
+
|
191
|
+
### 修正したコード
|
192
|
+
|
193
|
+
```ruby
|
194
|
+
|
195
|
+
require 'mechanize'
|
196
|
+
|
197
|
+
|
198
|
+
|
199
|
+
agent = Mechanize.new
|
200
|
+
|
201
|
+
# sample.html のコードが含まれるurlから情報を取得
|
202
|
+
|
203
|
+
page = agent.get(url)
|
204
|
+
|
205
|
+
html_infos = page.search('.aaa')
|
206
|
+
|
207
|
+
|
208
|
+
|
209
|
+
extracted_datas = []
|
210
|
+
|
211
|
+
html_infos.each do |ele|
|
212
|
+
|
213
|
+
extracted_datas << ele.inner_text
|
214
|
+
|
215
|
+
end
|
216
|
+
|
217
|
+
```
|
218
|
+
|
83
219
|
|
84
220
|
|
85
221
|
### 現状のコード
|
@@ -102,68 +238,44 @@
|
|
102
238
|
|
103
239
|
|
104
240
|
|
105
|
-
ex
|
106
|
-
|
107
|
-
h
|
108
|
-
|
109
|
-
|
110
|
-
|
111
|
-
|
112
|
-
|
113
|
-
|
114
|
-
|
115
|
-
|
116
|
-
|
117
|
-
#
|
118
|
-
|
119
|
-
#
|
120
|
-
|
121
|
-
#
|
122
|
-
|
123
|
-
|
124
|
-
|
125
|
-
|
126
|
-
|
127
|
-
|
128
|
-
|
129
|
-
|
130
|
-
|
131
|
-
|
132
|
-
|
133
|
-
|
134
|
-
|
135
|
-
|
136
|
-
|
137
|
-
|
138
|
-
|
139
|
-
|
140
|
-
|
141
|
-
|
142
|
-
|
143
|
-
|
144
|
-
|
145
|
-
|
146
|
-
|
147
|
-
<div class="aaa">
|
148
|
-
|
149
|
-
<span class="bbb">β</span>yyy
|
150
|
-
|
151
|
-
</div>
|
152
|
-
|
153
|
-
</li>
|
154
|
-
|
155
|
-
<li>
|
156
|
-
|
157
|
-
<div class="aaa">
|
158
|
-
|
159
|
-
<span class="bbb">θ</span>zzz
|
160
|
-
|
161
|
-
</div>
|
162
|
-
|
163
|
-
</li>
|
164
|
-
|
165
|
-
</ol>
|
166
|
-
|
167
|
-
</div>
|
168
|
-
|
169
|
-
```
|
241
|
+
foo = page.xpath("//div[@class='aaa']//text()")
|
242
|
+
|
243
|
+
bar = page.xpath("//div[@class='aaa']/span[@class="bbb"]//text()")
|
244
|
+
|
245
|
+
extracted_datas = (foo - bar).map{|x| x.text.strip}.select{|x| x!=""}
|
246
|
+
|
247
|
+
|
248
|
+
|
249
|
+
p extracted_datas
|
250
|
+
|
251
|
+
|
252
|
+
|
253
|
+
# 現状だと下記のようにデータが取得されます
|
254
|
+
|
255
|
+
#[
|
256
|
+
|
257
|
+
# "ooo",
|
258
|
+
|
259
|
+
# "qqq",
|
260
|
+
|
261
|
+
# "yyy",
|
262
|
+
|
263
|
+
# "zzz"
|
264
|
+
|
265
|
+
#]
|
266
|
+
|
267
|
+
|
268
|
+
|
269
|
+
# 理想は下記のようにデータが取得されること
|
270
|
+
|
271
|
+
#[
|
272
|
+
|
273
|
+
# "ooopppqqq",
|
274
|
+
|
275
|
+
# "yyy",
|
276
|
+
|
277
|
+
# "zzz"
|
278
|
+
|
279
|
+
#]
|
280
|
+
|
281
|
+
```
|
1
質問に関するタグを追加しました
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|