PythonでXHTMLのタグを除去するときにルビを置換したい

Question

### 前提・実現したいこと Pythonで、XHTMLのタグを除去しようとしています。このとき、ルビだけは、青空文庫形式の記号＜＞(全角の不等号)に置換したいのですが、上手く行きません。るびほんぶんというのがあれば、るびほんぶんという部分を＜るびほんぶん＞と置換し、最後にまとめて出力しようとしています。 ### 発生している問題・エラーメッセージルビが＜ルビ＞に置換されないまま出力される ### 該当のソースコード Python 3.7 ```ここに言語名を入力 from lxml import etree from lxml import html from bs4 import BeautifulSoup f=open('story-0004.xhtml','rb') s=BeautifulSoup(f.read(),"lxml") i=0 for tag in s.find_all(): if tag.find_all('rt'): try: x='＜' + tag.string + '＞' a=tag.text.replace(tag.string,x) s.tag.text=x #この行が反映されない。 except: pass print(s.text) #tagが置換されずに出力される ``` ### 試したこと s.tag.textが多分、元のBeautifulsoupオブジェクトsそのものではなく、 forループの中だけで一時的に生成されるオブジェクトか何かなのではないかと思うのですが、元のオブジェクトをどうやって呼び出すのかが分かりません。 ### 補足情報（FW/ツールのバージョンなど）ここにより詳細な情報を記載してください。

Accepted Answer

元のxhtmlソースがわからないので適当に作りました。概ね、以下のようなことをされたいのだと思うのですが。 ```python3 from bs4 import BeautifulSoup f="""

漢かん字じ

文も字じごとにルビを振ふるサンプルです。

""" s=BeautifulSoup(f) for tag in s.find_all("rt"): tag.string = '＜' + tag.string + '＞' print(s.get_text()) # 漢＜かん＞字＜じ＞ # 文＜も＞字＜じ＞ごとにルビを振＜ふ＞るサンプルです。 ``` 以下、コメントに対して・下記のようにするとわかりますが、stringは子要素の文字列が１つだけなら拾えますが、複数あるとNoneを返すようです。参考：[Beautifulsoup4のtextとstringの違い](https://irukanobox.blogspot.com/2016/06/beautifulsoup4textstring.html?m=0) ```python3 for tag in s.find_all(): print(tag) print("string: ",tag.string) print("text: ",tag.text) ``` で、for tag in s.find_all():という指定だと

漢かん字じ

などは、

の中にrubyとかrtとか複数の子要素があるのでNoneを返してしまいます。で、x='＜' + tag.string + '＞'が文字列＋None＋文字列となって、まず失敗します。次に、置き換えの際にもtag.textが複数の文字列の集合体なので、置換に失敗するようです。・元コードではrtタグに指定するためかif tag.find_all('rt'):が使われていますが、これだと「tagの内部にrtタグを含むか」という条件になってしまい、htmlとかbodyの大枠でもTrueになります。あえてやるならば、if tag.name == "rt":です。ただ、わざわざifでやらなくてもfor tag in s.find_all("rt"):という指定でrtタグだけ回してあげれば、スムーズに行くようです。あとオマケで、i=0は使ってないので不要なのと、a=tag.text.replace(tag.string,x)はaという置換後の文字列を代入した変数が増えただけで、元のtagを置き換えてはいないので効果がありません。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問