質問編集履歴

【試してみたこと】を追記しました。

2021/11/23 10:31

投稿

Aya_K

スコア5

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,7 +1,7 @@
 こんにちは。Pythonでスクレイピングを行っています。
 例えば
 https://medium.com/cotinetwork/coti-newsletter-september-20th-a9cac08e22df
-こちらの記事で本文だけを抽出したいのです。
+こちらの記事で「本文だけ」を抽出したいのです。
 htmlを見ると、
@@ -13,7 +13,15 @@
 hy hz ct ia b ib ic id ie if ig ih ii ij ik il im in io ip iq ir is it iu iv cl dq
 なのは分かるのですが、これをbeautiful soupを用いて取得することはできますでしょうか？
+【試してみたこと】
+①contents = soup.find_all('p', class_="hy hz ct ia b ib ic id ie if ig ih ii ij ik il im in io ip iq ir is it iu iv cl dq")
+で本文の取得自体はできます。しかし、このクラス名自体を自動でpythonで取得できるようにしたいのです。
-a = soup.select("body > div > div > div:nth-child(3) > article > div > div > section > div:nth-child(3) > div > p")
+②a = soup.select("body > div > div > div:nth-child(3) > article > div > div > section > div:nth-child(3) > div > p")
-などのCSS参照も考えてみたのですが、ブログごと/記事ごとに階層構造が異なるため、うまい参照方法が思いつきません。どうぞお知恵をお貸しください。beautifulsoup以外のライブラリを用いても構いません。
+などのCSS参照も考えてみたのですが、ブログごと/記事ごとに階層構造が異なるため、うまい参照方法が思いつきません。
+③feedparserも試してみました。
+feeds.entries[0].content
+により、本文をタグ付きで取得することができましたが、<figure><li><img>タグなど余計な要素が入るため、これは消したいです。したがって、beautifulsoupの方が効率的かなと思っています。
+どうぞお知恵をお貸しください。beautifulsoup以外のライブラリを用いても構いません。
 宜しくお願いします。

317