質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

XHTML

XHTMLは、eXtensible HyperText Markup Languageの略であり、SGMLベースであるHTMLとは違って、有効なXMLドキュメントにもなるHTMLアプリケーションです。XMLベースのツールを用いて生成されるHTMLページのためによく使われるマークアップ言語です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1865閲覧

PythonでXHTMLのタグを除去するときにルビを置換したい

MakotoAkai

総合スコア7

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

XHTML

XHTMLは、eXtensible HyperText Markup Languageの略であり、SGMLベースであるHTMLとは違って、有効なXMLドキュメントにもなるHTMLアプリケーションです。XMLベースのツールを用いて生成されるHTMLページのためによく使われるマークアップ言語です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

1クリップ

投稿2020/03/16 11:05

前提・実現したいこと

Pythonで、XHTMLのタグを除去しようとしています。
このとき、ルビ<rt>だけは、青空文庫形式の記号<>(全角の不等号)に置換したいのですが、上手く行きません。

<rt>るびほんぶん</rt>
というのがあれば、るびほんぶんという部分を<るびほんぶん>と置換し、最後にまとめて出力しようとしています。

発生している問題・エラーメッセージ

ルビが<ルビ>に置換されないまま出力される

該当のソースコード

Python 3.7

from lxml import etree from lxml import html from bs4 import BeautifulSoup f=open('story-0004.xhtml','rb') s=BeautifulSoup(f.read(),"lxml") i=0 for tag in s.find_all(): if tag.find_all('rt'): try: x='<' + tag.string + '>' a=tag.text.replace(tag.string,x) s.tag.text=x #この行が反映されない。 except: pass print(s.text) #tagが置換されずに出力される

試したこと

s.tag.textが多分、元のBeautifulsoupオブジェクトsそのものではなく、
forループの中だけで一時的に生成されるオブジェクトか何かなのではないかと思うのですが、
元のオブジェクトをどうやって呼び出すのかが分かりません。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

元のxhtmlソースがわからないので適当に作りました。
概ね、以下のようなことをされたいのだと思うのですが。

python3

1from bs4 import BeautifulSoup 2 3f=""" 4<!DOCTYPE html> 5<html> 6<head> 7</head> 8<body> 9<div> 10<p><ruby>漢<rt>かん</rt>字<rt>じ</rt></ruby></p> 11<p><ruby>文<rt>も</rt>字<rt>じ</rt></ruby>ごとにルビを<ruby>振<rt>ふ</rt></ruby>るサンプルです。</p> 12</div> 13</body> 14</html> 15""" 16 17s=BeautifulSoup(f) 18for tag in s.find_all("rt"): 19 tag.string = '<' + tag.string + '>' 20 21print(s.get_text()) 22 23# 漢<かん>字<じ> 24# 文<も>字<じ>ごとにルビを振<ふ>るサンプルです。

以下、コメントに対して
・下記のようにするとわかりますが、stringは子要素の文字列が1つだけなら拾えますが、複数あるとNoneを返すようです。
参考:Beautifulsoup4のtextとstringの違い

python3

1for tag in s.find_all(): 2 print(tag) 3 print("string: ",tag.string) 4 print("text: ",tag.text)

で、for tag in s.find_all():という指定だと<p><ruby><rt>かん</rt><rt></rt></ruby></p>などは、<p>の中にrubyとかrtとか複数の子要素があるのでNoneを返してしまいます。
で、x='<' + tag.string + '>'が文字列+None+文字列となって、まず失敗します。
次に、置き換えの際にもtag.textが複数の文字列の集合体なので、置換に失敗するようです。

・元コードではrtタグに指定するためかif tag.find_all('rt'):が使われていますが、これだと「tagの内部にrtタグを含むか」という条件になってしまい、htmlとかbodyの大枠でもTrueになります。
あえてやるならば、if tag.name == "rt":です。
ただ、わざわざifでやらなくてもfor tag in s.find_all("rt"):という指定でrtタグだけ回してあげれば、スムーズに行くようです。

あとオマケで、i=0は使ってないので不要なのと、a=tag.text.replace(tag.string,x)はaという置換後の文字列を代入した変数が増えただけで、元のtagを置き換えてはいないので効果がありません。

投稿2020/03/17 02:44

編集2020/03/18 00:30
jeanbiego

総合スコア3966

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

MakotoAkai

2020/03/17 08:52

ありがとうございます。 書いていただいているのが、正にやりたい内容です。 戴いたコードを参考にして、自分のコードと比較してみると、 自分は、forループの中でif文を使って置換していましたが、 戴いたコードでは、forループ無いで直接置換している点が 違っていました。 この点を修正すれば、意図した動作になったのですが、for文の中のif文で置換だとどうして上手く流れなかったのか、理由が良く分かりませんでした。 もし、理由が分かれば教えて戴けませんでしょうか?
jeanbiego

2020/03/18 00:31

本文中にて回答しました。私もbeautifulsoupをそんなに使い込んでるわけではないので、できればご自身で色々調べたり試したりしてみてください。
MakotoAkai

2020/03/18 09:12

分かり易い説明をしていただきありがとうございました。よく理解できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問