質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

26363閲覧

BeautifulSoupで複数の属性でfind_allする方法を教えてください

michelseebach

総合スコア13

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2019/03/21 11:49

環境

python3.7
beautifulsoup4.7.1

前提・実現したいこと

PythonでBeautifulSoupを使い始めたばかりです。
<span style="font-size::12px"><p id="hoge">と言ったようにタグと属性で指定して、
複数条件で並び順を維持したまま所得したいと思いました。

<span style="font-size:16px">hoge</span> <span style="font-size:12px">title1</span> <p id="1">text01</p> <p id="2">text02</p> <p id="3">text03</p> <span>huga</span> <span style="font-size:12px">title2</span> <p id="1">text01</p> <p id="2">text02</p> <p id="3">text03</p> <span>huga</span>

上のような構造のHTMLからspanでslyle属性とpタグのIDを指定して、
titleとtextのみを並び順を維持して所得したいのですが方法が分かりませんでした。

from bs4 import BeautifulSoup import pathlib p = pathlib.Path(filePath) htmlFile: str = p.read_text(encoding="utf-8") soup = BeautifulSoup(htmlFile, features="lxml") print(soup.find_all("span", style="font-size:12px"))

上記コードのsoup.find_all("span", style="font-size:12px")の部分にもう一つ条件を追加して

<p id=re.compile("\d+")>の項目を同時に所得するために span, style="font-size:12px" or "p", id=re.compile("\d+")という感じで 双方を所得したいと思っています。

試したこと

soup.find_all(["span", "p"])で複数のタグを所得できるので、

soup.find_all([["span", style="font-size:12px"], ["p", id=re.compile("\d+")])

としても駄目でした。

よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

soup.find_all(['span', 'p'])でタグを絞り込んでから
タグと属性が同じかチェックしてからリストに登録しています。

python

1from bs4 import BeautifulSoup 2 3html = '''<span style="font-size:16px">hoge</span> 4<span style="font-size:12px">title1</span> 5<p id="1">text01</p> 6<p id="2">text02</p> 7<p id="3">text03</p> 8<span>huga</span> 9<span style="font-size:12px">title2</span> 10<p id="1">text01</p> 11<p id="2">text02</p> 12<p id="3">text03</p> 13<span>huga</span>''' 14 15soup = BeautifulSoup(html, 'html.parser') 16 17result = [] 18 19for i in soup.find_all(['span', 'p']): 20 if i.name == 'span' and i.get('style') == 'font-size:12px': 21 result.append(i.get_text(strip=True)) 22 23 elif i.name == 'p' and str.isdecimal(i.get('id')): 24 result.append(i.get_text(strip=True)) 25 26print(result)

投稿2019/03/22 08:23

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

michelseebach

2019/03/22 09:02

なるほど、複数条件の場合はforの中で条件をつけて分岐させるんですね。 教えて頂いた方法で無事に意図通りの情報を所得できました。 とてもわかりやすい回答ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問