python スクレイピングの要素指定について

前提・実現したいこと(再度、訂正させて頂きました。)

初めまして
pythonのrequestsとseleniumとBeautifulSoupを使って
下記写真の右側矢印付近にあるix:nonnumericタグから左側の矢印に該当する氏名<塚田耕司>を取得しようと試みたのですが、
何も要素を取得できませんでした。

ちゃんと要素を受け取るためにはどのようにcssセレクタを指定すればよろしいでしょうか？

こちらがターミナルの結果画像になります。

該当のソースコード

Python3.8

from bs4 import BeautifulSoup
import requests
from selenium import webdriver
import time

URL = "https://disclosure.edinet-fsa.go.jp/E01EW/BLMainController.jsp?uji.verb=W00Z1010initialize&uji.bean=ek.bean.EKW00Z1010Bean&PID=W1E63031&TID=W00Z1010&SESSIONKEY=1592144727926&stype=0&dcdSelect=35001&hcdSelect=&ycdSelect=&tsbSdt=&syoruiKanriNo=S100GG5L&keyword1=7203&keyword2=&keyword3=&keyword4=&keyword5=&lgKbn=2&pkbn=0&skbn=1&dskb=&askb=&dflg=0&iflg=0&preId=1&chr=7203&hbn=true&spf5=2&otd=35001&hcd=&sec=&scc=&shb=&snm=&spf1=1&spf2=1&iec=&icc=&inm=&spf3=1&fdc=&fnm=&spf4=1&cal=1&era=H&yer=&mon=&psr=1&pid=4&row=100&idx=0&str=&kbn=1&flg="
page = requests.get(URL)

driver = webdriver.Chrome()
driver.get(URL)

time.sleep(3)

soup = BeautifulSoup(driver.page_source, "html.parser")

el = soup.select("div#diffBlock00_4")
print(el)

time.sleep(5)

試したこと

最初はrequestsでサイトを取得しBeatifulSoupで解析を行ったのですが、解析結果に
対応していないブラウザです
と表示されたのでseleniumでブラウザを起動し解析を試みました。

こちらのサイトを参考に様々なcssセレクタを試しましたが結果は同じでした。
https://gammasoft.jp/support/css-selector-for-python-web-scraping/

補足情報（FW/ツールのバージョンなど）

IDEはvisual stdio code
webブラウザーはChromeDriverでちゃんとバージョンが合ったものを使用しています。

当方は、htmlはprogateを一周、機械学習や作業の自動化に惹かれpythonを始めたばかりで拙い文章だとは思いますが、ご教授の方よろしくお願い致します。

hoshi-takanori

2020/06/14 22:58

requests を使う場合、requests は HTML を単なる文字列として返すので、BeatifulSoup を使って HTML を解析する必要があるわけですが、ChromeDriver は Chrome を自動操作するためのツールで、Chrome はブラウザなので当然自分で HTML を解析して表示しているわけで、ChromeDriver はそこから情報をもらえるため BeatifulSoup は不要になります。(というか、むしろブラウザがやってる HTML の解析をブラウザ抜きでやるためのライブラリが BeatifulSoup である、と言ったほうがいいかも。)

dice.program

2020/06/15 05:28

ご回答ありがとうございます！ ChromeDriverにより解析済みなのにさらにBeatifulSoupで解析するという二度手間だった訳ですね、、今後ないようにします！ BeautifulSoupの存在意義も簡潔に理解できました！ありがとうございました！！

行動規範の内容に同意します

回答2件

ベストアンサー

requestsもbsも不要です。

python
1from selenium import webdriver
2from time import sleep
3
4URL = "https://di" # 略
5driver = webdriver.Chrome()
6driver.get(URL)
7
8sleep(3)
9
10driver.switch_to.frame(driver.find_element_by_name('viewFrame'))
11driver.switch_to.frame(driver.find_element_by_name('mainFrame'))
12el = driver.find_element_by_xpath('//td[contains(text(), "【氏名又は名称】")]/following-sibling::td[1]').text
13
14print(el)

投稿2020/06/14 17:10

shirai

総合スコア1290

dice.program

2020/06/15 05:21

ありがとうございます！無事取得できました！！下の方の回答と合わせるとフレーム要素を取得しそちらに遷移してからxpathで要素指定するという考えになるんですね！他のサイトでも同じ形が出たら試してみます。お時間割いて頂きありがとうございました！

行動規範の内容に同意します

HTMLのどの要素を取りたいのか不明なので、
要素の指定が間違っていると言うことでしょうから、HTMLをよく見直しましょうとしか言いようがないです。

#追記
フレームを使ったページのようなのに、フレームの中を見ていないからですね。

投稿2020/06/14 15:35

編集2020/06/14 16:17

otn

総合スコア85901

dice.program

2020/06/14 16:41

ご指摘頂きありがとうございます！質問内容を訂正させて頂きました。お手すきの際にご確認頂ければ幸いです。フレームのソースを表示でご指摘頂いた問題への解決に繋がりますでしょうか？重ね重ね申し訳ございません。

otn

2020/06/14 23:31

> 質問内容を訂正させて頂きました何をどう訂正したのでしょうか？画像は見づらいので、テキストで書いてください。 > フレームのソースを表示でご指摘頂いた問題への解決に繋がりますでしょうか？重ね重ね申し訳ございません。フレームの中は別のHTMLソースなので、別ページに遷移するようなイメージです。・requiestsを使うなら、フレームのURLを取得してそのページを取得・seleniumを使うなら、driver.switch_to_frame(フレーム要素)

dice.program

2020/06/15 05:24

重ねてのご指摘ありがとうございます！再度訂正させて頂きました！ご回答頂いた内容でseleniumの動きがイメージできました。遷移("するような"になるんでしょうか？)する前に要素を取得しようとしていたため何も返ってこず、目的のフレームに遷移してからxpathを指定するという形で無事取得できました。重ね重ねのご回答ありがとうございました！

行動規範の内容に同意します

あなたの回答