回答編集履歴

コメントに対しての回答

2020/03/18 00:30

投稿

jeanbiego

スコア3966

answer CHANGED Viewed

@@ -26,4 +26,23 @@
 # 漢＜かん＞字＜じ＞
 # 文＜も＞字＜じ＞ごとにルビを振＜ふ＞るサンプルです。
-```
+```
+以下、コメントに対して
+・下記のようにするとわかりますが、stringは子要素の文字列が１つだけなら拾えますが、複数あるとNoneを返すようです。
+参考：[Beautifulsoup4のtextとstringの違い](https://irukanobox.blogspot.com/2016/06/beautifulsoup4textstring.html?m=0)
+```python3
+for tag in s.find_all():
+    print(tag)
+    print("string: ",tag.string)
+    print("text: ",tag.text)
+```
+で、for tag in s.find_all():という指定だと<p><ruby>漢<rt>かん</rt>字<rt>じ</rt></ruby></p>などは、<p>の中にrubyとかrtとか複数の子要素があるのでNoneを返してしまいます。
+で、x='＜' + tag.string + '＞'が文字列＋None＋文字列となって、まず失敗します。
+次に、置き換えの際にもtag.textが複数の文字列の集合体なので、置換に失敗するようです。
+・元コードではrtタグに指定するためかif tag.find_all('rt'):が使われていますが、これだと「tagの内部にrtタグを含むか」という条件になってしまい、htmlとかbodyの大枠でもTrueになります。
+あえてやるならば、if tag.name == "rt":です。
+ただ、わざわざifでやらなくてもfor tag in s.find_all("rt"):という指定でrtタグだけ回してあげれば、スムーズに行くようです。
+あとオマケで、i=0は使ってないので不要なのと、a=tag.text.replace(tag.string,x)はaという置換後の文字列を代入した変数が増えただけで、元のtagを置き換えてはいないので効果がありません。