質問編集履歴
2
書式の改善。タグにPython, Beautiful Soupを追加。
title
CHANGED
File without changes
|
body
CHANGED
@@ -8,7 +8,9 @@
|
|
8
8
|
# HTML例
|
9
9
|
検索結果を表示するサイトにおいて、デフォルトで全件の名前や付属情報が表示されているので、そこから全件の名前や付属情報を抽出したい。
|
10
10
|
|
11
|
+
```
|
12
|
+
# HTML
|
11
|
-
|
13
|
+
<div id="CY" class="SW">
|
12
14
|
<div class="LP-RT-AE">
|
13
15
|
<div class="LP-RT-AE_HR">
|
14
16
|
<h3 class="LP-RT-AE_HR-text" data-CY="CY_01">コンパクト</h3>
|
@@ -24,22 +26,26 @@
|
|
24
26
|
<h5 class="ct" data-CY="VVV" style="height: 10px;">VVV</h5>
|
25
27
|
<h6 class="ee" data-ee="OOO<" style="height: 10px;">OOO</h6>
|
26
28
|
<dl class="price-dl" style="height: 10px;">
|
27
|
-
<dt>pri</dt>
|
29
|
+
<dt>pri</dt>
|
30
|
+
```
|
28
31
|
|
32
|
+
```
|
29
33
|
# コード
|
30
|
-
|
34
|
+
url = 'AAAAAAAAAAAAAA'
|
31
35
|
res = requests.get(url)
|
32
36
|
content = res.content
|
33
37
|
soup = BeautifulSoup(content, 'html.parser')
|
34
|
-
ss = soup.find_all('div', class_='LP-RT-AE')
|
38
|
+
ss = soup.find_all('div', class_='LP-RT-AE')
|
39
|
+
```
|
35
40
|
この時点でssにh4を含む結果が残りません。
|
36
41
|
|
37
42
|
ssの出力結果はなにもないです。
|
38
43
|
1つ階層が上の <div class="LP-RT">で
|
39
|
-
|
44
|
+
ss_old = soup.find_all('div', class_='LP-RT')
|
40
45
|
を行うと出力は以下のようになります。
|
41
46
|
|
47
|
+
```
|
42
|
-
|
48
|
+
[<div class="LP-RT">
|
43
49
|
<div class="LP-RT-CT">
|
44
50
|
<p>
|
45
51
|
<span>GU</span>
|
@@ -50,14 +56,17 @@
|
|
50
56
|
<div id="category">
|
51
57
|
<!-- RESULT -->
|
52
58
|
</div><!-- #category -->
|
53
|
-
</div>]
|
59
|
+
</div>]
|
60
|
+
```
|
54
61
|
|
55
62
|
残りの処理については、
|
63
|
+
```
|
56
|
-
|
64
|
+
for sss in ss:
|
57
65
|
ne = sss.h4
|
58
66
|
ct = sss.h4
|
59
67
|
ee = sss.h5
|
60
|
-
print(ne, ct, ee)
|
68
|
+
print(ne, ct, ee)
|
69
|
+
```
|
61
70
|
のような感じをイメージしています。
|
62
71
|
|
63
72
|
よろしくお願いいたします。
|
1
書式の改善。タグにPythonを追加。
title
CHANGED
File without changes
|
body
CHANGED
@@ -8,7 +8,7 @@
|
|
8
8
|
# HTML例
|
9
9
|
検索結果を表示するサイトにおいて、デフォルトで全件の名前や付属情報が表示されているので、そこから全件の名前や付属情報を抽出したい。
|
10
10
|
|
11
|
-
<div id="CY" class="SW">
|
11
|
+
```<div id="CY" class="SW">
|
12
12
|
<div class="LP-RT-AE">
|
13
13
|
<div class="LP-RT-AE_HR">
|
14
14
|
<h3 class="LP-RT-AE_HR-text" data-CY="CY_01">コンパクト</h3>
|
@@ -24,24 +24,22 @@
|
|
24
24
|
<h5 class="ct" data-CY="VVV" style="height: 10px;">VVV</h5>
|
25
25
|
<h6 class="ee" data-ee="OOO<" style="height: 10px;">OOO</h6>
|
26
26
|
<dl class="price-dl" style="height: 10px;">
|
27
|
-
<dt>pri</dt>
|
27
|
+
<dt>pri</dt>```
|
28
28
|
|
29
29
|
# コード
|
30
|
-
url = 'AAAAAAAAAAAAAA'
|
30
|
+
```url = 'AAAAAAAAAAAAAA'
|
31
31
|
res = requests.get(url)
|
32
32
|
content = res.content
|
33
33
|
soup = BeautifulSoup(content, 'html.parser')
|
34
|
-
|
35
|
-
|
36
|
-
ss = soup.find_all('div', class_='LP-RT-AE')
|
34
|
+
ss = soup.find_all('div', class_='LP-RT-AE')```
|
37
35
|
この時点でssにh4を含む結果が残りません。
|
38
36
|
|
39
37
|
ssの出力結果はなにもないです。
|
40
38
|
1つ階層が上の <div class="LP-RT">で
|
41
|
-
ss_old = soup.find_all('div', class_='LP-RT')
|
39
|
+
```ss_old = soup.find_all('div', class_='LP-RT')```
|
42
40
|
を行うと出力は以下のようになります。
|
43
41
|
|
44
|
-
[<div class="LP-RT">
|
42
|
+
```[<div class="LP-RT">
|
45
43
|
<div class="LP-RT-CT">
|
46
44
|
<p>
|
47
45
|
<span>GU</span>
|
@@ -52,14 +50,14 @@
|
|
52
50
|
<div id="category">
|
53
51
|
<!-- RESULT -->
|
54
52
|
</div><!-- #category -->
|
55
|
-
</div>]
|
53
|
+
</div>]```
|
56
54
|
|
57
55
|
残りの処理については、
|
58
|
-
for sss in ss:
|
56
|
+
```for sss in ss:
|
59
57
|
ne = sss.h4
|
60
58
|
ct = sss.h4
|
61
59
|
ee = sss.h5
|
62
|
-
print(ne, ct, ee)
|
60
|
+
print(ne, ct, ee)```
|
63
|
-
をイメージしています。
|
61
|
+
のような感じをイメージしています。
|
64
62
|
|
65
63
|
よろしくお願いいたします。
|