質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

171閲覧

python BeautifulSoupのタグとりだし

raonarud

総合スコア88

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/03/10 13:00

編集2019/03/10 13:48

HTML

1"<td class=""mainprice"">¥298(税込)<span>定価より ¥10 おトク!</span></td>"

の中からpythonのライブラリであるBeautifulSoupを使って
¥298(税込)の文字列のみを取り出す方法について質問なのですが

python

1source = "<td class=""mainprice"">¥298(税込)<span>定価より ¥10 おトク!</span></td>" 2soup = BeautifulSoup(source, "html.parser") 3span = dt.span.find('span')

.find('span')を使うと定価より ¥10 おトク!の部分が取り出せますがやりたいことは違います。

やりたいことは¥298(税込)の部分だけを表示することは可能でしょうか?

宜しくお願い致します

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ドキュメントを見る癖を付けましょう。

clear()

Tag.clear() は、タグが挟んでいるcontentsを削除します。(訳注:要チェック?):

Python

1markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>' 2soup = BeautifulSoup(markup) 3tag = soup.a

tag.clear()
tag

<a href="http://example.com/"></a>

extract()

PageElement.extract() はツリーからタグや文字列を除去します。 返値は、その抽出されたタグや文字列です。:

Python

1markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>' 2soup = BeautifulSoup(markup) 3a_tag = soup.a

i_tag = soup.i.extract()

a_tag

<a href="http://example.com/">I linked to</a>

i_tag

<i>example.com</i>

print(i_tag.parent)
None

引用元:Beautiful Soup 4.2.0 Doc. 日本語訳

投稿2019/03/10 13:12

LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

raonarud

2019/03/10 13:43

回答、ありがとうございます. わかりやすく修正させて頂きましたのでご確認のほどよろしくお願いします。
LouiS0616

2019/03/10 14:04

extractで除去してからtextあたりで取り出せば良いのでは? 知っていることを組み合わせれば多くの問題は解決できます。できないのなら考察が甘いか知識が足りないか、大体はどっちかです。
raonarud

2019/03/10 14:15 編集

span = dt.span.find('span').extractを実行したらspanの方が切り出されてしましました <span>定価より ¥2,382 おトク!</s
LouiS0616

2019/03/10 14:18 編集

td = soup.find('td') # td要素を取り出して td.find('span').extract() # span要素を取り除いて print(td.text) # 中身を見る 簡単ないくつかの操作を組み合わせているだけです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問