質問編集履歴
1
すべて
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,10 +1,54 @@
|
|
1
|
+
時間がなく、焦って質問したため語弊があったので全体的に変更します。
|
2
|
+
|
3
|
+
|
4
|
+
|
1
5
|
### 前提・実現したいこと
|
2
6
|
|
3
|
-
スクレイピングで
|
7
|
+
スクレイピングで本文のみを抽出したい
|
4
8
|
|
9
|
+
|
10
|
+
|
11
|
+
### 使用するパッケージ
|
12
|
+
|
13
|
+
- requests
|
14
|
+
|
15
|
+
- Beautiful Soup
|
16
|
+
|
17
|
+
- ExtractContent // 本文抽出用のパッケージ
|
18
|
+
|
19
|
+
|
20
|
+
|
21
|
+
### 手順
|
22
|
+
|
23
|
+
1. requests で要求したサイトにアクセス
|
24
|
+
|
25
|
+
2. Beautiful Soupでページ内のHTMLを取得 // ここまでは容易
|
26
|
+
|
5
|
-
|
27
|
+
3. ExtractContentで本文を抽出 // ここで下手げに改行されたテキストが出力されるので、改行を消したい。
|
28
|
+
|
29
|
+
|
30
|
+
|
31
|
+
### 問題点
|
32
|
+
|
33
|
+
1. 手順2.の後、str型に変更。
|
34
|
+
|
35
|
+
replace("\n", "")などで改行を消してから、手順3.ExtractContentに通すと、隣り合うpタグ同士が改行されず、1つの文章として出力されてしまうので、これを解消したい。(ここの質問の仕方が間違っていて語弊が生まれた模様。大変申し訳ありませんでした。)
|
36
|
+
|
37
|
+
|
6
38
|
|
7
39
|
```HTML
|
40
|
+
|
41
|
+
<p>
|
42
|
+
|
43
|
+
いつもありがとうございます。
|
44
|
+
|
45
|
+
かなり慣れてきて、痛みを感じにくくなって
|
46
|
+
|
47
|
+
きました。3週間くらい持つようになって来ました。
|
48
|
+
|
49
|
+
また来月もよろしくお願いします。
|
50
|
+
|
51
|
+
</p>
|
8
52
|
|
9
53
|
<p>
|
10
54
|
|
@@ -22,26 +66,34 @@
|
|
22
66
|
|
23
67
|
|
24
68
|
|
25
|
-
|
69
|
+
```
|
26
70
|
|
27
|
-
また
|
71
|
+
いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
|
72
|
+
|
73
|
+
```
|
28
74
|
|
29
75
|
|
30
76
|
|
31
|
-
|
77
|
+
こうではなく。。。
|
32
78
|
|
33
|
-
|
79
|
+
```
|
34
80
|
|
35
|
-
|
81
|
+
いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
|
82
|
+
|
83
|
+
いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
|
84
|
+
|
85
|
+
```
|
86
|
+
|
87
|
+
として抽出したい。
|
36
88
|
|
37
89
|
|
38
90
|
|
39
|
-
#### できたらいいなっていう草案
|
40
|
-
|
41
|
-
1. 1度HTMLを取得し、正規表現ですべての改行などを削除
|
42
|
-
|
43
|
-
2. もう一度、Beautiful Soupに通してテキストのみを抽出
|
44
91
|
|
45
92
|
|
93
|
+
### やりたいこと。
|
46
94
|
|
47
|
-
|
95
|
+
手順2の時点で、同じタグ内だけであれば改行を消したいです。
|
96
|
+
|
97
|
+
そうすれば、ExtractContentできれいな本文が抽出できると予想。
|
98
|
+
|
99
|
+
再帰的にタグごとに改行を削除する方法を知りたいです。
|