Pythonを用いたスクレイピング（ で囲まれた要素の取得について）

前提・実現したいこと

Pythonでselemniumを用いたガバナンス報告書からの情報の自動取得を考えているのですが
 で囲まれたテキスト要素の取得ができず困っています。

発生している問題・エラーメッセージ

コード例では7203トヨタ自動車のガバナンス報告書の上部、【コーポレートガバナンス・コードの各原則に基づく開示】の
６　株主との対話　【原則５－１】の部分を取得したいと考えているのですが、
【コーポレートガバナンス・コードの各原則に基づく開示】の全体は取得できる一方で、 ではさまれている６　株主との対話　【原則５－１】の要素をx_pathで取得しようとしても、
selenium.common.exceptions.InvalidSelectorException: Message: invalid selector: The result of the xpath expression "/html/body/div/div/div[6]/div[2]/span/text()[100]" is: [object Text]. It should be an element.
といったエラーが出てしまいます。
このような ではさまれている要素についてスクレイピングする方法があればご教示いただけますと幸いです。

該当のソースコード

Python
1from selenium import webdriver
2
3driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\chromedriver.exe')
4URL = "https://www2.tse.or.jp/tseHpFront/CGK010020Action.do"
5driver.get(URL)
6
7data = []
8def check():
9    "要素全体（こっちは取得できる）"
10    a1 = driver.find_element_by_xpath('/html/body/div/div/div[6]/div[2]/span').text
11    print(a1)
12    "取得したい要素（取得できない）"
13    a2 = driver.find_element_by_xpath('/html/body/div/div/div[6]/div[2]/span/text()[100]').text
14    print(a2)
15
16'''証券コード入力'''
17driver.find_element_by_css_selector("#bodycontents > div.pagecontents > form > div.boxOptListed03.fontsizeS > table:nth-child(2) > tbody > tr:nth-child(2) > td > input[type=text]").send_keys("7203")
18driver.find_element_by_css_selector('#bodycontents > div.pagecontents > form > p.fontsizeM.center > input:nth-child(1)').click()
19
20driver.find_element_by_css_selector('#bodycontents > div > form > table > tbody > tr:nth-child(4) > td:nth-child(9) > a:nth-child(3)').click()
21new_window = driver.window_handles[1]
22driver.switch_to.window(new_window)
23
24'''要素取得'''
25check()
26driver.close()

補足情報（FW/ツールのバージョンなど）

Python3, selenium 3.6.0, Chromeバージョン: 76

t_obara

2019/09/09 08:07

xxx/span/text() や、xxx/span/text()[1] などは想定通りの値が取得できているのですか？　また、 xxx/span/text()[contains(string(), '原則５－１')] などはどうでしょう。

行動規範の内容に同意します

回答1件

ベストアンサー

【コーポレートガバナンス・コードの各原則に基づく開示】自体が1つのエレメントになっていて、
その配下にはエレメントが用意されていないようですね。
こうなるとSeleniumでは打つ手がないので、
丸ごと全体を持ってきた後で、文字列操作をしてやるしかないと思います。

投稿2019/09/10 03:07

shirai

総合スコア1290

A.Kobayashi

2019/09/10 06:12 編集

ご回答ありがとうございます。やはり要素ごとの取得はできないのですね。一応私のほうでも考えて、 で囲まれている場合が改行二つ入るので findで文字列取得して見た後に、'\n\n'で終わり部分を指定する形式で、一部例外はあるもののある程度は上手くいきそうなのでそちらで模索してみたいと思います。ありがとうございました。以下改良して見たコード ~~~~~~~~ def check(): "要素全体を取得" global a1 a1 = driver.find_element_by_xpath('/html/body/div/div/div[5]/div[2]/span').text "取りたい要素の冒頭を指定" b1 = a1.find('【原則５－１】') "取りたい要素がないとき無理やりエラー起こす（もっといいやり方ありそう）" if b1 == -1: b1 = "文字列エラー" "取りたい要素の後半部分を’\n\n'で指定" try: a2 = a1[b1:-1] b2 = a2.find('\n\n') "取りたい要素の後半部分が段落分けされずに終わる場合（b2=-1）は例外処理" if b2==-1: a3 = a1[b1:-1] else: a3 = a1[b1:b1 + b2] return a3 except TypeError: print("取得できず") a3 = "取得できず" return a3