スクレイピングでタグごとにテキストを抽出したい。

Question

時間がなく、焦って質問したため語弊があったので全体的に変更します。 ### 前提・実現したいことスクレイピングで本文のみを抽出したい ### 使用するパッケージ - requests - Beautiful Soup - ExtractContent // 本文抽出用のパッケージ ### 手順 1. requests で要求したサイトにアクセス 2. Beautiful Soupでページ内のHTMLを取得 // ここまでは容易 3. ExtractContentで本文を抽出 // ここで下手げに改行されたテキストが出力されるので、改行を消したい。 ### 問題点 1. 手順2.の後、str型に変更。 replace(" ", "")などで改行を消してから、手順3.ExtractContentに通すと、隣り合うpタグ同士が改行されず、1つの文章として出力されてしまうので、これを解消したい。(ここの質問の仕方が間違っていて語弊が生まれた模様。大変申し訳ありませんでした。) ```HTML

いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。

``` ``` いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。 ``` こうではなく。。。 ``` いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。 ``` として抽出したい。 ### やりたいこと。手順2の時点で、同じタグ内だけであれば改行を消したいです。そうすれば、ExtractContentできれいな本文が抽出できると予想。再帰的にタグごとに改行を削除する方法を知りたいです。

Answer

説明ではよくわからないのですがタグごとにテキストを取りたりってことでしたら ```python html = """

いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。

いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。 また来月もよろしくお願いします。

""" from bs4 import BeautifulSoup # 改行を除去 soup = BeautifulSoup(html.replace(" ", ""), "lxml") ``` # タグごと改行 ```python text = soup.get_text(" ", strip=True) print(text) ``` いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。 3週間くらい持つようになって来ました。また来月もよろしくお願いします。 # タグごとにリスト ```python text = [i for i in soup.stripped_strings] print(text) ``` ['いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。', 'いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。', '3週間くらい持つようになって来ました。', 'また来月もよろしくお願いします。']

Answer

str.replace(" ", "") で改行だけ消せばいいのではないでしょうか。 ```python html = """

いつもありがとうございます。かなり慣れてきて、痛みを感じにくくなってきました。3週間くらい持つようになって来ました。また来月もよろしくお願いします。

""" from bs4 import BeautifulSoup soup = BeautifulSoup(html) text = soup.p.get_text(strip=True).replace(" ", "") print(text) ```

前提・実現したいこと

使用するパッケージ

手順

問題点

やりたいこと。

タグごと改行

タグごとにリスト

関連した質問