質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

1回答

221閲覧

タグの中身が空のものだけ抽出したい

chinsan

総合スコア7

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2022/06/26 13:49

お世話になっております。
スクレイピングをしており、基本的なことが分からずご教授ください。

<td id="TBL1_B_Col4_1" style="display: none;">使用中止</td>            ・            ・            ・ <td id="TBL1_B_Col14_1"></td>

ある表は上記のようなtdタグで構成されていますが、上行のようにtdタグに「使用中止」というような文字列が入っているものは除外し、下行のような中身が空のものだけを抽出したいと思っています。どのように記載すればよいでしょうか?

<やったこと>

python

1td_elements = driver.find_elements(By.TAG_NAME, "td") #まずtdタグだけ抽出 2kara_td_elements=[] #空のものだけの要素用リスト作成 3for i in td_elements: 4 if len(i.text) ==0: #文字列で長さがゼロであれば 5 kara_td_elements.append(i) リストに追加

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2022/06/26 14:29

お書きのコードで駄目だったんでしょうか?
chinsan

2022/06/26 15:19

早急なご回答、ありがとうございました。ご教授頂いたやり方でやったらできました。 情報が足りなかったので申し訳なかったのですが補足しますと、スクレイピング対象の表は施設の利用予約の表でして、一時間単位で予約済か空きかがわかるような左右に長い表になっており、空きの時間を抽出したいと考えておりました。 ブラウザ表示上、例えば8時から10時まで「予約済」と表示されている状態(表の見え方は8時から10時までがエクセルでいう「結合」されたような状態)になっていたとしても、「検証ツール」で表示させると8時、9時、10時の3つ分のtdタグに「予約済」と表示がされていました。なので、私が記載のやり方で抽出したlen(i.text) ==0 の条件での抽出方法では、8時、9時、10時はtdタグは入ってこないだろうと思っていたのですが、そうはならず9時、10時も入ってきていました。 試しにi.text=="予約済"を条件に先ほど抽出してみたのですが、8時の分しか抽出されませんでしたので理解できていませんがつじつまの合う結果にはなっています。。
chinsan

2022/06/26 15:23

jsの知識が必要ってことがわかりました。もっと勉強します。 ありがとうございました。
guest

回答1

0

ベストアンサー

python

1td_elements = driver.find_elements(By.XPATH, "//table//td") 2kara_td_elements = [i for i in td_elements if not i.get_attribute("innerHTML")]

投稿2022/06/26 14:14

melian

総合スコア19798

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問