青空文庫をルビ付きでスクレピングする

Question

サンプル:https://www.aozora.gr.jp/cards/000329/files/18376_12100.html ### 質問 div main_textタグの中のコンテンツをなどのタグ込みで取得したいと考えております contentsメソッドでタグごと取得するところまではできたのですが、リスト形式になっており、また不要な文字が混入しています。 for文でリストから取り出し、消そうとしたのですが、タグは文字列で結合することができないみたいです。理想の結果になるように出力したいのですが、どうすればよいか教えていただけると助かります ※理想の出力結果は下に記載しております。 ### 実現したいこと - 理想の出力結果になるような形で出力する。 - ルビのタグ付きで取得する - ' \u3000等、不要な改行コードなどを消す - txtファイルで出力する ### 試したこと ``` import requests from bs4 import BeautifulSoup import pandas as pd def get(url): //対象のページアクセスする url = url html_text = requests.get(url) soup = BeautifulSoup(html_text.content, 'html.parser') //タイトルと著者名を取得する title = soup.find('h1') author = soup.find('h2') //不要なタグを削除する soup.find('div',class_='jisage_5').decompose() //必要な情報を、タグごと取得 contents = soup.find('div', class_='main_text').contents return contents if __name__ == '__main__': str = get('https://www.aozora.gr.jp/cards/000329/files/18376_12100.html') print(str) ``` ``` print(content)の結果 [
, ' ', ' ',
, ' \u3000むかし、むかし、あるところに、おじいさんとおばあさんがありました。まいにち、おじいさんは山へしば', 刈（か）, 'りに、おばあさんは川へ', 洗濯（せんたく）, 'に行きました。',
, ' \u3000ある日、おばあさんが、川のそばで、せっせと', 洗濯（せんたく）, 'をしていますと、', 川上（かわかみ）, 'から、大きな', 桃（もも）, 'が一つ、',
, ' ',

「ドンブラコッコ、スッコッコ。
ドンブラコッコ、スッコッコ。」
``` ```_理想の出力結果桃太郎楠山正雄むかし、むかし、あるところに、おじいさんとおばあさんがありました。まいにち、おじいさんは山へしば', 刈（か）, 'りに、おばあさんは川へ', 洗濯（せんたく）, 'に行きました。',
, 3000ある日、おばあさんが、川のそばで、せっせと', 洗濯（せんたく）, 'をしていますと、', 川上（かわかみ）, 'から、大きな', 桃（もも）, 'が一つ、',
, ' 「ドンブラコッコ、スッコッコ。
ドンブラコッコ、スッコッコ。」
```

Accepted Answer

`br` と `ruby` 要素はそのままで、それ以外は text を抽出する様な感じでしょうか。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd

def get(url):
    # 対象のページアクセスする
    url = url
    html_text = requests.get(url)
    soup = BeautifulSoup(html_text.content, 'html.parser')

# タイトルと著者名を取得する
    title = soup.find('h1').text
    author = soup.find('h2').text

## 必要な情報を、タグごと取得
    contents = soup.find('div', class_='main_text')
    contents = ''.join(
        str(i) if i.name in ('br', 'ruby') else i.text.strip().replace('', '')
        for i in contents)
    return title, author, contents
    
if __name__ == '__main__':
    title, author, contents = get('https://www.aozora.gr.jp/cards/000329/files/18376_12100.html')
    with open(f'青空文庫_{title}_{author}.txt', 'w') as f:
        f.write(f'{title}
')
        f.write(f'{author}

')
        f.write(contents)
```

質問

実現したいこと

試したこと

関連した質問