pythonスクレイピングにてリンクにアクセスできない

pythonのスクレイピングにて特定のサイトへのアクセスを自動化しようと試みております。
以下のコードでアクセスしようとした所、思ってない挙動となり先に進めなくなりました。
解決方法のご教授をお願い致します。

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
from google.colab import auth
from oauth2client.client import GoogleCredentials
import gspread
import time 
import requests
import os

#Urlに飛ぶ
url = '＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊'
driver = webdriver.Chrome('chromedriver',options=options)
driver.get(url)
time.sleep(5)

soup = BeautifulSoup(driver.page_source, 'html5lib')

username = driver.find_element_by_name('username').send_keys("＊＊＊＊＊")
password = driver.find_element_by_name('password').send_keys("＊＊＊＊＊＊")
driver.find_element_by_class_name('login_button').click()
time.sleep(5)
print(driver.current_url) 

e = driver.find_element(By.CSS_SELECTOR,"#container  tr:nth-child(1)  td:nth-child(3)  a")
print(e)

リンク先の内容が取れているかを確かめると以下が表示さてしまいます。
<selenium.webdriver.remote.webelement.WebElement (session="12f925d6b6e4a30fe91cc3c6dbc4d6f3", element="02f10bfd-78dc-46ac-93f7-9087e366725b")>

ご確認の程よろしくお願い致します。

meg_

2021/03/28 12:05

> 以下のコードでアクセスしようとした所、思ってない挙動となり先に進めなくなりました。では、想定していた結果は何だったのでしょうか？

Nihsi2407

2021/03/28 12:18

リンク先のHTMLが取れている状態です。

行動規範の内容に同意します

回答1件

ベストアンサー

最後の行で

print(e)

の代わりに

print(e.get_attribute("href"))

とした場合どうでしょうか。

投稿2021/03/28 12:08

退会済みユーザー

総合スコア0

Nihsi2407

2021/03/28 12:20

print(e.get_attribute("href")) 上記で解決致しました。重ねて質問で申し訳ないですが、 <selenium.webdriver.remote.webelement.WebElement (session="12f925d6b6e4a30fe91cc3c6dbc4d6f3", element="02f10bfd-78dc-46ac-93f7-9087e366725b")> こちらの情報が表示されていたのはどう行った仕組みで取れていたのでしょうか？

退会済みユーザー

2021/03/28 12:40

言い方が難しいのですが、「<selenium.webdriver.remote.webelement.WebElement (session～)>」というのは、WebElementオブジェクトの文字列としての表現になります。（e は WebElementオブジェクト） WebElementオブジェクト（e）をそのままprint関数に渡した場合、上記のように表示される仕組みになっています。（これは仕様みたいなものです） WebElementオブジェクトは、配下に色々な属性を持っており、「href」も属性の一つです。通常プログラムで表示対象等になるのは、それら属性になります。「e.get_attribute("href")」というのは、WebElementオブジェクトの「href」という名前の属性を取得する、という意味です。

Nihsi2407

2021/03/28 12:50

seleniumにて情報を取り出す際には一旦「<selenium.webdriver.remote.webelement.WebElement (session～)>」このようになると言う事でしょうか？そこから、自分の意図した要素をより出すのに、.get_attribute("href")や.textなどを使用していく形と言う認識でしょうか？

退会済みユーザー

2021/03/28 12:58 編集

そうですね。 WebElementオブジェクトそのものをprintすると「<selenium.webdriver.remote.webelement.WebElement (session～)>」となります。 find_element関数を使ったとき、返ってくるのはWebElementオブジェクトなのでその返ってきたWebElementオブジェクトに対して、.get_attribute("href")や.textなどを使用していく形になると思います。 find_element系の関数は、たとえば https://thinkami.hatenablog.com/entry/2017/11/01/080310 の真ん中あたりのコードが参考になるかと。

Nihsi2407

2021/03/28 13:01

かしこまりました！とても勉強になりました！早急な回答ありがとうございます！

行動規範の内容に同意します