bs4,soupだと処理が遅いので、seleniumを使って、サイト内にあるリンクを押したいです。ただ、taeget属性しかありません。

前提・実現したいこと

bs4,soupだと処理が遅いので、seleniumを使って、下のサイト内にあるリンクをクリックしたいです。
https://tenshoku.mynavi.jp/jobinfo-127282-1-22-1/msg/

beautifulSoup,requestsを使ってはできたのですが、seleniumを使ってやりたいと考えています。
（処理を繰り返し行うため、速度を早めたい。）

ただ、taeget属性しかありません。
XPath、リンクの一部一致の取得でやってみましたがうまくいきませんでした。。
どなたかご教授お願いいたします。。

target = driver.find_element_by_xpath('/html/body/div[1]/div[6]/div[2]/div/section[4]/div/table/tbody/tr[9]/td/a')
target.click()

target = driver.find_elements_by_partial_link_text('リンクテキスト')
target.click()

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "minav_scorp-1.py", line 33, in <module>
    target = driver.find_element_by_xpath('/html/body/div[1]/div[6]/div[2]/div/section[4]/div/table/tbody/tr[9]/td/a')
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 394, in find_element_by_xpath
    return self.find_element(by=By.XPATH, value=xpath)
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 978, in find_element
    'value': value})['value']
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute
    self.error_handler.check_response(response)
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[1]/div[6]/div[2]/div/section[4]/div/table/tbody/tr[9]/td/a"}
  (Session info: chrome=78.0.3904.70)

Traceback (most recent call last):
  File "minav_scorp-1.py", line 33, in <module>
    target = driver.find_element_by_partial_link_text('http')
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 462, in find_element_by_partial_link_text
    return self.find_element(by=By.PARTIAL_LINK_TEXT, value=link_text)
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 978, in find_element
    'value': value})['value']
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute
    self.error_handler.check_response(response)
  File "/Users/yudai/opt/anaconda3/lib/python3.7/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"partial link text","selector":"http"}
  (Session info: chrome=78.0.3904.70)

該当のソースコード


from bs4 import BeautifulSoup
from selenium import webdriver
import requests
from urllib.parse import urljoin

url_list = []


for n in range(1, 2):
    url = f"https://tenshoku.mynavi.jp/search/list/?pageNum={n}"

    res = requests.get(url)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "html.parser")
    for i in soup.find_all("a", class_='linkArrowS', text="詳細を見る"):
        elem = urljoin(url, i.get("href")).replace("/msg/", "/")

        # url_listに格納
        url_list.append(elem)


for m in url_list:
    driver = webdriver.Chrome(executable_path='chromedriver')
    driver.execute_script("window.open(arguments[0], 'newtab')", m)

    target = driver.find_element_by_partial_link_text('http')

    target.click()

otn

2019/11/02 00:26

seleniumを使ったほうがブラウザが処理するので遅くなると思いますが、速くなるのは確かでしょうか？

shirai

2019/11/02 05:38

これは会社一覧からhref属性を探したいのか、特定の会社の詳細ページからhref属性を探したいのかどちらでしょうか？

shirai

2019/11/02 15:43

https://tenshoku.mynavi.jp/jobinfo-127282-1-22-1/msg/のサイトのどこのhref属性を取得したいのでしょうか。

yudai109

2019/11/03 09:02

ご連絡ありがとうございます！ご返答遅れて申し訳ありません！ https://tenshoku.mynavi.jp/jobinfo-127282-1-22-1/ こちらのサイトの「企業ホームページ」にあるURLを取得したいです！

行動規範の内容に同意します

回答1件

ベストアンサー

高難易度なDOMですね。。
これで取得できるでしょうか。

python
1th_tag = driver.find_element_by_link_text('企業ホームページ') # この行がうまくいくか怪しい
2tr_tag = th_tag.find_element_by_xpath('..') # ここは絶対うまくいく
3a_tag = tr_tag.find_element_by_tag_name('a') # ここも絶対うまくいく
4print(a_tag.text) # http://www.di-system.co.jp/
5print(a_tag.get_attribute('href')) # /url-forwarder/?clientId=127282&amp;planId=1&amp;contractId=22&amp;jobSeqNo=1&amp;ty=0

↑ダメならこれでどうでしょう。
¥マークはバックスラッシュに置き換えてください。

python
1a_tag = driver.find_element_by_xpath('//h2[@text()=¥'会社情報¥']/..').find_element_by_tag_name('a')
2print(a_tag.text) # http://www.di-system.co.jp/
3print(a_tag.get_attribute('href')) # /url-forwarder/?clientId=127282&amp;planId=1&amp;contractId=22&amp;jobSeqNo=1&amp;ty=0

それでもダメならこれでどうでしょう。

for h2_tag in driver.find_elements_by_tag_name('h2'):
    if h2_tag.text == '会社情報':
        section_tag = h2_tag.find_element_by_xpath('..')
        a_tag = section_tag.find_element_by_tag_name('a')
        print(a_tag.text) # http://www.di-system.co.jp/
        print(a_tag.get_attribute('href')) # /url-forwarder/?clientId=127282&amp;planId=1&amp;contractId=22&amp;jobSeqNo=1&amp;ty=0
        break

ちなみにbsよりseleniumが軽いというのは間違いです。
一般的にはbsのほうがseleniumより軽いです。
その分seleniumのほうがやれることの範囲は広いです。

あなたのプログラムではfor文が回るたびに
新しくdriverを宣言しているのでメモリに大量の
ガベージが溜まって重くなっています。
driver = webdriver.Chrome(executable_path='chromedriver')はプログラム中で
一回しか呼び出さないようにしましょう。

投稿2019/11/03 19:12

shirai

総合スコア1290

yudai109

2019/11/04 11:32

詳しいご回答ありがとうございます！ bsの方が早いのですね！まだpython学び始めて4日でよくわからず、htmlを取得し直す方が重いのだと思っていました。どれもなぜか動きませんでしたが、動くまで改良しながらやってみようと思います！（僕のコードを貼り付けた位置が悪いのでしょうか。。）また、現状早いbsでやっていこうと思います！！ご指導ありがとうございました！！！今後ともよろしくおねがいいたします！

行動規範の内容に同意します