beautiful soup　直下の子要素が取得できない

一番外側のdivの子要素のdivを取得したいです。
ささいな間違いをしていると思うのですが、ドキュメントを見てもこれで取得できるはずですがどうしてもできません。おかしな箇所をご指摘いただければ幸いです。

python
132 source = '<div><div><div><p>　ドラゴンフルーツ<div><p>いちじく</div><div></div><p><p>なし</div></div><div><div><p>　ぶどう<div></div><p><p>りんご</div></div><div><p>みかん</div></div>'
2 33 soup = BeautifulSoup(source, 'lxml')
3 37 print(soup.find_all('div', recursive=False))

↓HTMLの構造

html
1<div>
2		<div>
3			<div>
4				<p>　ドラゴンフルーツ</p>
5				<div>
6					<p>いちじく</p>
7				</div>
8				<div></div>
9				<p></p>
10				<p>なし</p>
11			</div>
12		</div>
13		<div>
14			<div>
15				<p>　ぶどう</p>
16				<div></div>
17				<p></p>
18				<p>りんご</p>
19			</div>
20		</div>
21		<div>
22			<p>みかん</p>
23		</div>
24</div>

結果　一番下です。からのリストが返ってきます。

行動規範の内容に同意します

回答2件

まずは以下を実行してみてください。

python
1from bs4 import BeautifulSoup
2
3source = '<div><div><div><p>　ドラゴンフルーツ<div><p>いちじく</div><div></div><p><p>なし</div></div><div><div><p>　ぶどう<div></div><p><p>りんご</div></div><div><p>みかん</div></div>'
4
5soup = BeautifulSoup(source, 'lxml')
6
7print(soup.prettify())

結果

html
1<html>
2 <body>
3  <div>
4   <div>
5    <div>
6     <p>
7      ドラゴンフルーツ
8     </p>
9     <div>
10      <p>
11       いちじく
12      </p>
13     </div>
14     <div>
15     </div>
16     <p>
17     </p>
18     <p>
19      なし
20     </p>
21    </div>
22   </div>
23   <div>
24    <div>
25     <p>
26      ぶどう
27     </p>
28     <div>
29     </div>
30     <p>
31     </p>
32     <p>
33      りんご
34     </p>
35    </div>
36   </div>
37   <div>
38    <p>
39     みかん
40    </p>
41   </div>
42  </div>
43 </body>
44</html>

BeautifulSoupによって勝手に<html>と<body>のタグが追加されているので見つかりません。

以下のようにすれば抽出できます。

python
1print(soup.html.body.find_all('div', recursive=False))

投稿2019/01/08 13:33

barobaro

総合スコア1286

navca

2019/01/08 13:37

ご回答ありがとうございました。なるほどでした。勉強になりました。ありがとうございました。

barobaro

2019/01/08 13:38

lmxlではなくhtml.parserだと追加されないようです

行動規範の内容に同意します

ベストアンサー

こんにちは！
不思議に思ったことを放置しない姿勢、素敵です。

ポイントはBeautifulSoup(source, 'lxml')にあります。
下のようにパースした結果を出力してみればrecursive=Falseでヒットしない理由は一目稜線。

python
1soup = BeautifulSoup(source, 'lxml')
2print(soup)

lxmlというライブラリでパースすると
HTMLとして必須の<html><body></html></body>を親切に/勝手に補ってくれるんですね。

投稿2019/01/08 13:25

編集2019/01/08 13:27

firedfly

総合スコア1133

navca

2019/01/08 13:37

ご回答ありがとうございます。びっくり！意外な罠でした。勉強になりました。ありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する