質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

解決済

タグの中身が空のものだけ抽出したい

chinsan
chiba_ts

総合スコア7

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

1回答

0評価

0クリップ

90閲覧

投稿2022/06/26 13:49

お世話になっております。
スクレイピングをしており、基本的なことが分からずご教授ください。

<td id="TBL1_B_Col4_1" style="display: none;">使用中止</td>            ・            ・            ・ <td id="TBL1_B_Col14_1"></td>

ある表は上記のようなtdタグで構成されていますが、上行のようにtdタグに「使用中止」というような文字列が入っているものは除外し、下行のような中身が空のものだけを抽出したいと思っています。どのように記載すればよいでしょうか?

<やったこと>

python

td_elements = driver.find_elements(By.TAG_NAME, "td") #まずtdタグだけ抽出 kara_td_elements=[] #空のものだけの要素用リスト作成 for i in td_elements: if len(i.text) ==0: #文字列で長さがゼロであれば kara_td_elements.append(i) リストに追加

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

otn

2022/06/26 14:29

お書きのコードで駄目だったんでしょうか?
chinsan

2022/06/26 15:19

早急なご回答、ありがとうございました。ご教授頂いたやり方でやったらできました。 情報が足りなかったので申し訳なかったのですが補足しますと、スクレイピング対象の表は施設の利用予約の表でして、一時間単位で予約済か空きかがわかるような左右に長い表になっており、空きの時間を抽出したいと考えておりました。 ブラウザ表示上、例えば8時から10時まで「予約済」と表示されている状態(表の見え方は8時から10時までがエクセルでいう「結合」されたような状態)になっていたとしても、「検証ツール」で表示させると8時、9時、10時の3つ分のtdタグに「予約済」と表示がされていました。なので、私が記載のやり方で抽出したlen(i.text) ==0 の条件での抽出方法では、8時、9時、10時はtdタグは入ってこないだろうと思っていたのですが、そうはならず9時、10時も入ってきていました。 試しにi.text=="予約済"を条件に先ほど抽出してみたのですが、8時の分しか抽出されませんでしたので理解できていませんがつじつまの合う結果にはなっています。。
chinsan

2022/06/26 15:23

jsの知識が必要ってことがわかりました。もっと勉強します。 ありがとうございました。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。