質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.52%

  • Python

    7904questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • スクレイピング

    328questions

Webスクレイピングで対象が無い場合は次候補に移りたい

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 156

psy

score 0

 前提・実現したいこと

PYTHONでWebスクレイピングを行う際に
対象が無い場合は次の候補に移る方法が知りたいです

プログラミングの学習を始めて1カ月程度です
Webスクレイピングを行いたいとの動機からPYTHONを選択しました

他の方が公開されていたソースコードを参考に色々弄りながら
(ソースコードの内容がすべて理解できているわけではないです)
・ブラウザ(GoogleChrome)の起動
・ログイン
・HP内の移動とデータ取得(CSV出力)をリストを利用して繰り返す

まではなんとか動く状態になったものの
目的となるページが存在しない場合に止まってしまう状態が解決できません

if elif elseを利用すればよいのだろうと思うのですが
どのように記載すればよいかご教示いただければ助かります

質問の仕方など不十分な点があれば
それらについても教えていただければと思います

 発生している問題・エラーメッセージ

止まる箇所①(検索ボタンを押した先に該当ページが無い場合)のエラー
DevTools listening on ws://127.0.0.1:12787/devtools/browser/017c4221-d8b9-4b81-9987-3def05eee8b0
1302
Traceback (most recent call last):
  File "sample.py", line 41, in scraping
    meigara_name = root.cssselect('#meigaraHeaderMeigaraName')[0].text_content().strip()
IndexError: list index out of range

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "sample.py", line 71, in <module>
    main()
  File "sample.py", line 30, in main
    scraping(browser,line.rstrip())
  File "sample.py", line 67, in scraping
    print(traceback.format_exc(sys.exc_info()[2]))
  File "C:\Python\lib\traceback.py", line 163, in format_exc
    return "".join(format_exception(*sys.exc_info(), limit=limit, chain=chain))
  File "C:\Python\lib\traceback.py", line 117, in format_exception
    type(value), value, tb, limit=limit).format(chain=chain))
  File "C:\Python\lib\traceback.py", line 497, in __init__
    capture_locals=capture_locals)
  File "C:\Python\lib\traceback.py", line 332, in extract
    if limit >= 0:
TypeError: '>=' not supported between instances of 'traceback' and 'int'

止まる箇所②(ボタンがクリックできない場合)のエラー
DevTools listening on ws://127.0.0.1:12410/devtools/browser/94524637-85ee-4c7e-a0c6-0cc2f1c12ad3
1305
Traceback (most recent call last):
  File "sample.py", line 43, in scraping
    browser.find_element_by_css_selector('#quarterInfoLink').click()
  File "C:\Python\lib\selenium\webdriver\remote\webelement.py", line 80, in click
    self._execute(Command.CLICK_ELEMENT)
  File "C:\Python\lib\selenium\webdriver\remote\webelement.py", line 628, in _execute
    return self._parent.execute(command, params)
  File "C:\Python\lib\selenium\webdriver\remote\webdriver.py", line 312, in execute
    self.error_handler.check_response(response)
  File "C:\Python\lib\selenium\webdriver\remote\errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.WebDriverException: Message: unknown error: Element <a id="quarterInfoLink" href="#" class="btn is-disabled">...</a> is not clickable at point (382, 252). Other element would receive the click: <li class="item">...</li>
  (Session info: chrome=67.0.3396.99)
  (Driver info: chromedriver=2.35.528161 (5b82f2d2aae0ca24b877009200ced9065a772e73),platform=Windows NT 10.0.16299 x86_64)


During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "sample.py", line 71, in <module>
    main()
  File "sample.py", line 30, in main
    scraping(browser,line.rstrip())
  File "sample.py", line 67, in scraping
    print(traceback.format_exc(sys.exc_info()[2]))
  File "C:\Python\lib\traceback.py", line 163, in format_exc
    return "".join(format_exception(*sys.exc_info(), limit=limit, chain=chain))
  File "C:\Python\lib\traceback.py", line 117, in format_exception
    type(value), value, tb, limit=limit).format(chain=chain))
  File "C:\Python\lib\traceback.py", line 497, in __init__
    capture_locals=capture_locals)
  File "C:\Python\lib\traceback.py", line 332, in extract
    if limit >= 0:
TypeError: '>=' not supported between instances of 'traceback' and 'int'

 該当のソースコード

PYTHON3

from selenium import webdriver
import lxml.html
import re
import traceback
import sys
import time

CHROMEDRIVER_PATH = r"C:\Python\driver\chromedriver.exe"
SITE_URL=''
USER_ID=''
PASSWORD=''

fr=open(r'C:\Python\Program\code.txt')
fw=open(r'C:\Python\Program\data.txt','w')

def main():
    browser = webdriver.Chrome(executable_path=CHROMEDRIVER_PATH)
    browser.set_window_size(1300,1300)
    browser.get(SITE_URL)
    uid = browser.find_element_by_id('j_username')
    password = browser.find_element_by_id('j_password')
    uid.send_keys(USER_ID)
    password.send_keys(PASSWORD)
    browser.find_element_by_name('LoginForm').click()
    fw.write('A,B,C,D,E,F,G,H,I,J,K,L,M,N\n')

    for line in fr.readlines():
        scraping(browser,line.rstrip())
    fr.close()
    fw.close()

def scraping(browser,code):
    browser.find_element_by_id('kabuMenu').click()
    input_code = browser.find_element_by_id('searchKey')
    input_code.send_keys(code)
    browser.find_element_by_id('meigaraSearchButton').click()
    try:
        root = lxml.html.fromstring(browser.page_source)
        meigara_name = root.cssselect('#meigaraHeaderMeigaraName')[0].text_content().strip()
        price = root.cssselect('#meigaraHeaderCurrenPrice')[0].text_content().replace(',', '').strip()
        browser.find_element_by_css_selector('#quarterInfoLink').click()
        root = lxml.html.fromstring(browser.page_source)
        closing = root.cssselect('#fiscalTerm')[0].text_content().replace(',', '').strip()
        feature = root.cssselect('#tokushoku')[0].text_content().replace(',', '').strip()
        inspect = root.cssselect('#gyosekiMitoshi')[0].text_content().replace(',', '').strip()
        topics = root.cssselect('#topixComment')[0].text_content().replace(',', '').strip()
        fc_ratio = root.cssselect('#gaikokujinMochikabuHiritsu')[0].text_content().replace(',', '').strip()
        fc_ratio = re.sub(r'\<.*\>\s*', '', fc_ratio).strip()
        it_ratio = root.cssselect('#toshinMoshikabuHiritsu')[0].text_content().replace(',', '').strip()
        it_ratio = re.sub(r'\<.*\>\s*', '', it_ratio).strip()
        browser.find_element_by_css_selector('#quarterInfoPerformanceLink').click()
        root = lxml.html.fromstring(browser.page_source)
        jikoshihon = root.cssselect('#value_2')[0].text_content().replace(',', '').strip()
        jikoshihon_ratio = root.cssselect('#value_3')[0].text_content().replace(',', '').strip()
        rieki_jyouyo = root.cssselect('#value_5')[0].text_content().replace(',', '').strip()
        yurishi_husai = root.cssselect('#value_6')[0].text_content().replace(',', '').strip()
        eigyou_cf = re.sub(r'\((\s*\d*)\)', '', root.cssselect('#eigyoCashFlow')[0].text_content().replace(',', '')).strip()
        eigyou_cf = re.sub(r'\((\s*\d*)\)', '', eigyou_cf).strip()
        genkin_cf = root.cssselect('#genkin')[0].text_content().replace(',', '').strip()
        genkin_cf = re.sub(r'\((\s*\d*)\)', '', genkin_cf).strip()
        fw.write('{0},{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}\n'.format(code, meigara_name, price, closing,jikoshihon, jikoshihon_ratio,rieki_jyouyo, yurishi_husai,eigyou_cf, genkin_cf, fc_ratio,it_ratio, feature, inspect,topics))

    except:
        print(code)
        print(traceback.format_exc(sys.exc_info()[2]))
        pass

if __name__ == '__main__':
    main()

 試したこと

止まる箇所①(検索ボタンを押した先に該当ページが無い場合)
browser.find_element_by_id('meigaraSearchButton').click()
で移動したあとに'#MeigaraName'があれば下の行に
無ければ
input_code.send_keys(code)
まで戻るような記述がIF式で書ければと思って検索するも解決できないでいます

止まる箇所②(ボタンがクリックできない場合)
browser.find_element_by_css_selector('#quarterInfoLink').click()
でクリックできないと止まるようなので
クリックできるところと出来ないところの違いを見ると
出来ない: <a id="InfoLink" href="#" class="btn is-disabled">
出来る : <a id="InfoLink" href="#" class="btn">
だったので #InfoLink の Classにis-disabled がある場合は
input_code.send_keys(code)
まで戻るような記述がIF式で書ければと思って検索するも解決できないでいます

 補足情報(FW/ツールのバージョンなど)

質問用にソースコードを省略していたものを全文記載しました(IP/PASS以外)

Q.seleniumを使っていたのに、途中でlxmlを使った理由は何でしょうか?

A.用途に似たソースコードの写経(動かなかったところを色々弄ってみる)をしている段階で
selenium=ブラウザを操作するもの lxml=HTMLを解析するもの 程度のイメージしかありません
ご質問の趣旨は「seleniumだけで出来るのに何故?」ということかと思いますが
私の知識が追い付いておらず申し訳ありません 

ここにより詳細な情報を記載してください。HP

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • mkgrei

    2018/07/18 06:45

    エラーを省略せずに全文載せてください。

    キャンセル

  • mkgrei

    2018/07/18 06:46

    seleniumを使っていたのに、途中でlxmlを使った理由は何でしょうか?

    キャンセル

回答 1

0

スクレイピングツールよく使います。

デキる人は知っている!Webスクレイピング用のソフト30選

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/07/20 22:34

    回答ありがとうございます。色々なサービスが公開されているのは判りましたが、Pythonの知識を深めたいと思っています。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7904questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • スクレイピング

    328questions