Pythonを用いたスクレイピング（
で囲まれた要素の取得について）

Question

### 前提・実現したいこと Pythonでselemniumを用いたガバナンス報告書からの情報の自動取得を考えているのですが
で囲まれたテキスト要素の取得ができず困っています。 ### 発生している問題・エラーメッセージコード例では7203トヨタ自動車のガバナンス報告書の上部、【コーポレートガバナンス・コードの各原則に基づく開示】の６　株主との対話　【原則５－１】の部分を取得したいと考えているのですが、【コーポレートガバナンス・コードの各原則に基づく開示】の全体は取得できる一方で、
ではさまれている６　株主との対話　【原則５－１】の要素をx_pathで取得しようとしても、 selenium.common.exceptions.InvalidSelectorException: Message: invalid selector: The result of the xpath expression "/html/body/div/div/div[6]/div[2]/span/text()[100]" is: [object Text]. It should be an element. といったエラーが出てしまいます。このような
ではさまれている要素についてスクレイピングする方法があればご教示いただけますと幸いです。 ### 該当のソースコード ```Python from selenium import webdriver driver = webdriver.Chrome(r'C:\Program Files (x86)\Google\Chrome\chromedriver.exe') URL = "https://www2.tse.or.jp/tseHpFront/CGK010020Action.do" driver.get(URL) data = [] def check(): "要素全体（こっちは取得できる）" a1 = driver.find_element_by_xpath('/html/body/div/div/div[6]/div[2]/span').text print(a1) "取得したい要素（取得できない）" a2 = driver.find_element_by_xpath('/html/body/div/div/div[6]/div[2]/span/text()[100]').text print(a2) '''証券コード入力''' driver.find_element_by_css_selector("#bodycontents > div.pagecontents > form > div.boxOptListed03.fontsizeS > table:nth-child(2) > tbody > tr:nth-child(2) > td > input[type=text]").send_keys("7203") driver.find_element_by_css_selector('#bodycontents > div.pagecontents > form > p.fontsizeM.center > input:nth-child(1)').click() driver.find_element_by_css_selector('#bodycontents > div > form > table > tbody > tr:nth-child(4) > td:nth-child(9) > a:nth-child(3)').click() new_window = driver.window_handles[1] driver.switch_to.window(new_window) '''要素取得''' check() driver.close() ``` ### 補足情報（FW/ツールのバージョンなど） Python3, selenium 3.6.0, Chromeバージョン: 76

Accepted Answer

【コーポレートガバナンス・コードの各原則に基づく開示】自体が1つのエレメントになっていて、
その配下にはエレメントが用意されていないようですね。
こうなるとSeleniumでは打つ手がないので、
丸ごと全体を持ってきた後で、文字列操作をしてやるしかないと思います。

Pythonを用いたスクレイピング（<br>で囲まれた要素の取得について）

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問