編集履歴

質問編集履歴

すべて

2020/02/21 07:54

投稿

Nero1129

スコア130

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,6 +1,22 @@
+時間がなく、焦って質問したため語弊があったので全体的に変更します。
 ### 前提・実現したいこと
-スクレイピングでタグごとにHTMLを抽出したいです。
+スクレイピングで本文のみを抽出したい
+### 使用するパッケージ
+- requests
+- Beautiful Soup
+- ExtractContent // 本文抽出用のパッケージ
+### 手順
+1. requests で要求したサイトにアクセス
+2. Beautiful Soupでページ内のHTMLを取得 // ここまでは容易
-下記のようなHTMLをget_text()でスクレイピングすると、すべて改行されて抽出されてしまい意味がありません。
+3. ExtractContentで本文を抽出 // ここで下手げに改行されたテキストが出力されるので、改行を消したい。
+### 問題点
+1. 手順2.の後、str型に変更。
+replace("\n", "")などで改行を消してから、手順3.ExtractContentに通すと、隣り合うpタグ同士が改行されず、1つの文章として出力されてしまうので、これを解消したい。(ここの質問の仕方が間違っていて語弊が生まれた模様。大変申し訳ありませんでした。)
 ```HTML
     <p>
       いつもありがとうございます。
@@ -8,17 +24,27 @@
       きました。3週間くらい持つようになって来ました。
       また来月もよろしくお願いします。
     </p>
+    <p>
+      いつもありがとうございます。
+      かなり慣れてきて、痛みを感じにくくなって
+      きました。3週間くらい持つようになって来ました。
+      また来月もよろしくお願いします。
+    </p>
 ```
-個人的に行いたいのはタグごとにテキストを抽出出来たらなと考えています。
+```
-また、1サイトだけであれば手動で行えばいいですが、大規模に処理を行いたいのでできる限り自動でさせたいです。
+いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
+```
+こうではなく。。。
+```
+いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
+いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。
+```
-### 試したこと
+として抽出したい。
-- 正規表現による改行、タブなどの除去を試みたのですが、すべての文字列が繋がってしまい意味がありませんでした。
-- 1行ごとに行おうとしましたが、そもそも入れ子構造のHTMLなのでどのように行えばいいのかがわかりませんでした。
-#### できたらいいなっていう草案
-1. 1度HTMLを取得し、正規表現ですべての改行などを削除
-2. もう一度、Beautiful Soupに通してテキストのみを抽出
+### やりたいこと。
-っていう感じで一応組んでみたものの、全然できませんでした。
+手順2の時点で、同じタグ内だけであれば改行を消したいです。
+そうすれば、ExtractContentできれいな本文が抽出できると予想。
+再帰的にタグごとに改行を削除する方法を知りたいです。

7 8 1205 1463