python（Beautiful Soup使用）で見出し間の文字数を数えたい

python（Beautiful Soup使用）で見出しと見出しの間の文字数を数えたい

ワードプレスで運営している自サイトの見出しと見出しの間の文字を数えたいです（SEO的な意味で）

数百記事あるのでスクレイピングで行いたく、詰まっています。
python3
Beautiful Soup
を使っています。

サンプルHTMLが

html
1<div class="entry-content">
2	<p><img /></p>
3	<p>いろはに</p>
4	<div ><div class="st-in-mybox">
5		<ul>
6			<li>１１１</li>
7			<li>２２２</li>
8			<li>３３３</li>
9		</ul>
10	</div></div>
11	<p>ほへと</p>
12	<h2>１個目のH2タグ</h2>
13	<p>ちりぬるを</p>
14	<p>わかよたれそ</p>
15	<h3>H3タグ_ほげほげ</h3>
16	<p>あいうえお</p>
17	<p>かきくけこ</p>
18	<h2>２個目のH2タグ</h2>
19
20	・・略・・
21</div>
22

だとして、
16文字
1個目のH2タグ（タグの中の文字列を持ってきたい）
11文字
H3タグ_ほげほげ

と出力したいです。
h2,h3タグと数えたいpタグ等が同じ階層にあるためうまくいきません。
また、pタグ,liタグ,aタグ等が考えられ、汎用性のあるコードが思いつきません。

そもそもBeautiful Soupの選択を変えるべきでしょうか?

python
1page_s = page.select('css_selector_to_target > div.entry-content')
2
3for page_loop in page_s:
4
5  h3 = page_loop.find("h3").text
6  print("h3テキスト > " + h3)
7

という感じまで進んでいます。
初心者かつ独学なので、質問以外の点でも、
おかしい所あったらご指摘お願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1html = '''<div class="entry-content">
2    <p><img /></p>
3    <p>いろはに</p>
4    <div ><div class="st-in-mybox">
5        <ul>
6            <li>１１１</li>
7            <li>２２２</li>
8            <li>３３３</li>
9        </ul>
10    </div></div>
11    <p>ほへと</p>
12    <h2>１個目のH2タグ</h2>
13    <p>ちりぬるを</p>
14    <p>わかよたれそ</p>
15    <h3>H3タグ_ほげほげ</h3>
16    <p>あいうえお</p>
17    <p>かきくけこ</p>
18    <h2>２個目のH2タグ</h2>
19</div>'''
20
21import re
22from bs4 import BeautifulSoup
23
24soup = BeautifulSoup(html, 'lxml')
25
26text = ''
27for tag in soup.find_all():
28    if re.match(r'h\d$', tag.name):
29        # h1, h2, ..., h6 タグが見つかった場合、それ以前の文字数を出力する。
30        print('{} ({}文字), {}'.format(text, len(text), tag))
31        text = ''
32    elif tag.string:
33        # h1, h2, ..., h6 タグ以外で値を持つタグの場合
34        text += tag.string

いろはに１１１２２２３３３ほへと (16文字), <h2>１個目のH2タグ</h2>
ちりぬるをわかよたれそ (11文字), <h3>H3タグ_ほげほげ</h3>
あいうえおかきくけこ (10文字), <h2>２個目のH2タグ</h2>

投稿2019/02/27 05:08

tiitoi

総合スコア21956

like_kinesis

2019/02/27 05:38

ありがとうございます。望む出力が得られたました。勉強になりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python（Beautiful Soup使用）で見出し間の文字数を数えたい

関連した質問