pythonでhtmlのタグのない部分を取得したい(BeautifulSoup)

今回やりたいことはタグの無いところに、タグをつけたいと思っています。

html
1<!--現在-->
2<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
3文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、
4<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
5文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、
6<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
7文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、

html
1<!--目標-->
2<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
3<p class = "hoge2">文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、</p>
4<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
5<p class = "hoge2">文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、</p>
6<p class = "hoge">文章、文章、文章、文章、文章、文章、</p>
7<p class = "hoge2">文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、</p>

今できることは、hogeで囲われてる文章は配列に入れることはできます。
hoge2で囲うべきところを配列に入れられたら、すぐに目標達成なのですが、それが今のところできていません。

一応調べた感じだとBeautifulSoupを使いそうですが、なかなか分かりません。わかる方いましたら、教えてください。

行動規範の内容に同意します

回答2件

Python
1p = soup.select_one("親ノード")
2a = p.children
3print(a)

で、a[0]に最初の改行（あれば）、
a[1]に最初のpノード、
a[2]に最初の"\n文章2、文章2、文章2、文章2、文章2、文章2、文章2、文章2、\n"、
以下同様に入るので、あとは好きなように加工します。

投稿2022/02/08 05:56

otn

総合スコア86385

oika77

2022/02/08 07:15

なるほどそういうやり方もあったのですね。ありがとうございます！！

行動規範の内容に同意します

自己解決

まず、soupを用意して、contentにはhtmlのデータが入っています。
そして、find_allでpタグを取得すると配列なので、p_tagに配列として格納します。
それで、各々にnext_sibling.strip()をつけることで、pタグ以外のところが取得できます。

next_siblingは指定の要素の次にあり、かつ同一階層にある要素を一つだけ返す。ということでした。

python
1コード
2soup = BeautifulSoup(content, "html.parser")
3
4p_tag = soup.find_all("p")
5for p in p_tag:
6    print(p.next_sibling.strip())

投稿2022/02/08 05:54

oika77

総合スコア184

oika77

2022/02/08 07:15

このやり方でもできました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問