質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
RPA

RPA(Robotic Process Automation)は、ホワイトカラーの間接業務を人間に代行して自動的に行う技術や概念を指します。人間が繰り返すクリックやキーボード入力といった定型的なデスクワークを行うことから、仮想知的労働者(Digital Labor)と呼ばれることがあります。

Chrome

Google Chromeは携帯、テレビ、デスクトップなどの様々なプラットフォームで利用できるウェブブラウザです。Googleが開発したもので、Blink (レンダリングエンジン) とアプリケーションフレームワークを使用しています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

1回答

3345閲覧

selelniumでtable内の要素を取得するときに空白がある場合の対処方法

ak_suzuki

総合スコア194

RPA

RPA(Robotic Process Automation)は、ホワイトカラーの間接業務を人間に代行して自動的に行う技術や概念を指します。人間が繰り返すクリックやキーボード入力といった定型的なデスクワークを行うことから、仮想知的労働者(Digital Labor)と呼ばれることがあります。

Chrome

Google Chromeは携帯、テレビ、デスクトップなどの様々なプラットフォームで利用できるウェブブラウザです。Googleが開発したもので、Blink (レンダリングエンジン) とアプリケーションフレームワークを使用しています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2021/04/01 00:32

前提・実現したいこと

pythonのライブラリであるseleniumを使って、Webサイトに表示されているtableをデータフレームに格納しようとしています。

発生している問題・エラーメッセージ

tdタグの内容を順番に取得していく際に、<td></td>のように空白がある場合、内容が取得できずにカラムがずれてしまいます。

該当のソースコード

取得元のHTMLはこちらです。

html

1<table id="table1"> 2 <tr> 3 <th>Name</th> 4 <th>Place</th> 5 <th>Age</th> 6 </tr> 7 <tr> 8 <td>Yamada</td> 9 <td>Tokyo</td> 10 <td>50</td> 11 </tr> 12 <tr> 13 <td>Kato</td> 14 <td></td> 15 <td>30</td> 16 </tr> 17 <tr> 18 <td>Tanaka</td> 19 <td>Kyoto</td> 20 <td>32</td> 21 </tr> 22</table>

データを取得するpythonはこちらです。

python

1from selenium import webdriver 2from selenium.webdriver.common.by import By 3import re 4import chromedriver_binary 5from time import sleep 6import pandas as pd 7 8browser = webdriver.Chrome() 9browser.get('取得したいURL') 10sleep(2) 11 12tableElem = browser.find_element_by_id('table1') 13trs = tableElem.find_elements(By.TAG_NAME, "tr") 14data = [] 15for i in range(0, len(trs)): 16 record = trs[i].text.split(' ') 17 data.append(record) 18 19df = pd.DataFrame(data) 20

上記PGMの結果

結果

上記の行Katoのおいて、Placeが空白であるたために列1にAgeの値である30が入り、列2はNoneになってしまいます。

これを、行Kato・列1は空白、行Kato・列2に30 と入れたいのですがうまくいきません。

get_attribute("textContent")を試してみましたが結果は同じでした。

補足情報(FW/ツールのバージョンなど)

Chrome : 89.0.4389.114
chromedriver_binary : 89.0.4389.23
Python : 3.8x

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

trからテキストを取り出してしまったら駄目ですね。tdから取らないと。

Python

1 record = [x.text for x in trs[i].find_elements(By.TAG_NAME, "td")]

また、普通は、forの部分は、

Python

1for tr in trs: 2 record = [x.text for x in tr.find_elements(By.TAG_NAME, "td")] 3 data.append(record)

でしょうか。二重の内包表記で書く人もいるでしょう。

投稿2021/04/01 03:00

otn

総合スコア84800

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ak_suzuki

2021/04/01 05:26

otnさん ありがとうございます!解決しました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問