質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.40%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

Q&A

解決済

1回答

168閲覧

Seleniumのfind_elementsで特定の子要素のclassだけを除外する方法

titan_a

総合スコア3

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

0グッド

0クリップ

投稿2024/07/21 06:20

編集2024/07/21 06:27

実現したいこと

html

1<div class="first second"> 2 <p>get text</p> 3</div> 4<div class="first second third"> 5 <p>not get text</p> 6</div>

上記のようなクラス定義されているhtmlで class="first second third"<p>内のnot get textは取得せず、class="first second"<p>内のテキスト get text のみをCSSセレクタで取得したい。

発生している問題・分からないこと

下記のコードだと、get textnot get textの両方が出力されてしまいます。どうすれば、get textのみを取得できますでしょうか?

該当のソースコード

python

1elements = driver.find_elements(By.CSS_SELECTOR, ".first.second :not(.third)") 2for element in elements: 3 print(element.text)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2024/07/21 06:37

.second と :not の間のスペースを削除してください。 elements = driver.find_elements(By.CSS_SELECTOR, ".first.second:not(.third)")
titan_a

2024/07/21 06:49

コメントありがとうございます。スペースを削除したところ問題が解決しました!
titan_a

2024/07/21 07:02

ベストアンサーに選びたいので同じ内容を回答欄に投稿いただけますでしょうか?
otn

2024/07/21 07:09 編集

あ、すいません。確認しながら書いてたら、対応策がずっと前にコメントで出てました。melianさん、お願いします。 確認しようとしたのは、もしdivが取れた場合に、.text でテキスト前後の改行など空白文字も含めて取得できるかどうかですが、前後の空白は削除したものが返されるようですね。いつも自分で削除していたので、あまり意識してなかったです。
guest

回答1

0

ベストアンサー

CSSセレクタ記述の中の空白は、子孫タグを意味します。
例えば、"div.foo p"だと、fooというクラスを持つdivの子孫タグのpを意味します。

".first.second :not(.third)"だと、「firstsecondというクラスをもつ何らかのタグの子孫のうち、thirdというクラスを持たない何らかのタグ」を意味するので、このHTMLだと2つのpタグがヒットします。divじゃなくて。pタグは両方とも条件を満たします。

「子孫タグ」じゃないなら、空白無しで続けましょう。
".first.second:not(.third)"

ヒットしたのがdivじゃなくてpであることに気づけば自力での解決も可能だったと思います。

投稿2024/07/21 07:03

編集2024/07/21 07:04
otn

総合スコア85458

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

titan_a

2024/07/21 07:10 編集

ありがとうございます。.textで出力すると、テキストのみが出力されてしまっていたので気づけませんでした。 get_attribute('innerHTML')で出力確認したところ、タグpが出力されていました。
otn

2024/07/21 07:38

> get_attribute('innerHTML')で出力確認したところ、タグpが出力されていました。 element.get_attribute('innerHTML') が、'<p>get text</p>' だったのならelementはdivタグですね。 修正後のコードの話ですかね? 最後に書いたのは自力解決の話なので、質問のコードのままでどうだったかという話です。 質問のコードのままの場合は、elementは p なので、 get_attribute('innerHTML') は 'get text'です。get_attribute('outerHTML') が'<p>get text</p>'。 elementのタグ名だけを得るなら、element.tag_name が簡明です。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.40%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問