編集履歴

質問編集履歴

ソースコードの見え方がおかしかったので修正

2018/07/18 12:11

投稿

psy

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -161,7 +161,7 @@
         pass
 if __name__ == '__main__':
-    main()```
+    main()
 ```

ソースコードの見え方がおかしかったものを修正

2018/07/18 12:11

投稿

psy

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -90,10 +90,9 @@
 TypeError: '>=' not supported between instances of 'traceback' and 'int'
 ```
 ### 該当のソースコード
+PYTHON3
--*- encoding: utf-8 -*-
+```
 from selenium import webdriver
 import lxml.html
 import re
@@ -163,7 +162,9 @@
 if __name__ == '__main__':
     main()```
+```
 ### 試したこと
 止まる箇所①（検索ボタンを押した先に該当ページが無い場合）
     browser.find_element_by_id('meigaraSearchButton').click()

ソースコードの表示がおかしかったので修正

2018/07/18 12:10

投稿

psy

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -91,9 +91,9 @@
 ```
 ### 該当のソースコード
-```PYTHON3
-# -*- encoding: utf-8 -*-
+-*- encoding: utf-8 -*-
 from selenium import webdriver
 import lxml.html
 import re

エラー全文追記　ソースコードを修正　質問に回答

2018/07/18 12:08

投稿

psy

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -24,11 +24,76 @@
 ### 発生している問題・エラーメッセージ
 ```
+止まる箇所①（検索ボタンを押した先に該当ページが無い場合）のエラー
+DevTools listening on ws://127.0.0.1:12787/devtools/browser/017c4221-d8b9-4b81-9987-3def05eee8b0
+1302
+Traceback (most recent call last):
+  File "sample.py", line 41, in scraping
+    meigara_name = root.cssselect('#meigaraHeaderMeigaraName')[0].text_content().strip()
+IndexError: list index out of range
+During handling of the above exception, another exception occurred:
+Traceback (most recent call last):
+  File "sample.py", line 71, in <module>
+    main()
+  File "sample.py", line 30, in main
+    scraping(browser,line.rstrip())
+  File "sample.py", line 67, in scraping
+    print(traceback.format_exc(sys.exc_info()[2]))
+  File "C:\Python\lib\traceback.py", line 163, in format_exc
+    return "".join(format_exception(*sys.exc_info(), limit=limit, chain=chain))
+  File "C:\Python\lib\traceback.py", line 117, in format_exception
+    type(value), value, tb, limit=limit).format(chain=chain))
+  File "C:\Python\lib\traceback.py", line 497, in __init__
+    capture_locals=capture_locals)
+  File "C:\Python\lib\traceback.py", line 332, in extract
+    if limit >= 0:
 TypeError: '>=' not supported between instances of 'traceback' and 'int'
+止まる箇所②（ボタンがクリックできない場合）のエラー
+DevTools listening on ws://127.0.0.1:12410/devtools/browser/94524637-85ee-4c7e-a0c6-0cc2f1c12ad3
+1305
+Traceback (most recent call last):
+  File "sample.py", line 43, in scraping
+    browser.find_element_by_css_selector('#quarterInfoLink').click()
+  File "C:\Python\lib\selenium\webdriver\remote\webelement.py", line 80, in click
+    self._execute(Command.CLICK_ELEMENT)
+  File "C:\Python\lib\selenium\webdriver\remote\webelement.py", line 628, in _execute
+    return self._parent.execute(command, params)
+  File "C:\Python\lib\selenium\webdriver\remote\webdriver.py", line 312, in execute
+    self.error_handler.check_response(response)
+  File "C:\Python\lib\selenium\webdriver\remote\errorhandler.py", line 242, in check_response
+    raise exception_class(message, screen, stacktrace)
+selenium.common.exceptions.WebDriverException: Message: unknown error: Element <a id="quarterInfoLink" href="#" class="btn is-disabled">...</a> is not clickable at point (382, 252). Other element would receive the click: <li class="item">...</li>
+  (Session info: chrome=67.0.3396.99)
+  (Driver info: chromedriver=2.35.528161 (5b82f2d2aae0ca24b877009200ced9065a772e73),platform=Windows NT 10.0.16299 x86_64)
+During handling of the above exception, another exception occurred:
+Traceback (most recent call last):
+  File "sample.py", line 71, in <module>
+    main()
+  File "sample.py", line 30, in main
+    scraping(browser,line.rstrip())
+  File "sample.py", line 67, in scraping
+    print(traceback.format_exc(sys.exc_info()[2]))
+  File "C:\Python\lib\traceback.py", line 163, in format_exc
+    return "".join(format_exception(*sys.exc_info(), limit=limit, chain=chain))
+  File "C:\Python\lib\traceback.py", line 117, in format_exception
+    type(value), value, tb, limit=limit).format(chain=chain))
+  File "C:\Python\lib\traceback.py", line 497, in __init__
+    capture_locals=capture_locals)
+  File "C:\Python\lib\traceback.py", line 332, in extract
+    if limit >= 0:
+TypeError: '>=' not supported between instances of 'traceback' and 'int'
 ```
 ### 該当のソースコード
 ```PYTHON3
+# -*- encoding: utf-8 -*-
 from selenium import webdriver
 import lxml.html
 import re
@@ -53,48 +118,62 @@
     uid.send_keys(USER_ID)
     password.send_keys(PASSWORD)
     browser.find_element_by_name('LoginForm').click()
-    fw.write('A,B,C,D\n')
+    fw.write('A,B,C,D,E,F,G,H,I,J,K,L,M,N\n')
     for line in fr.readlines():
         scraping(browser,line.rstrip())
     fr.close()
     fw.close()
 def scraping(browser,code):
-    browser.find_element_by_id('Menu').click()
+    browser.find_element_by_id('kabuMenu').click()
     input_code = browser.find_element_by_id('searchKey')
     input_code.send_keys(code)
-    browser.find_element_by_id('Button').click()
+    browser.find_element_by_id('meigaraSearchButton').click()
     try:
         root = lxml.html.fromstring(browser.page_source)
-        meigarname = root.cssselect('#MeigaraName')[0].text_content().strip()
+        meigara_name = root.cssselect('#meigaraHeaderMeigaraName')[0].text_content().strip()
-        price = root.cssselect('#meigaraPrice')[0].text_content().replace(',','').strip()
+        price = root.cssselect('#meigaraHeaderCurrenPrice')[0].text_content().replace(',', '').strip()
-        browser.find_element_by_css_selector('#InfoLink').click()
+        browser.find_element_by_css_selector('#quarterInfoLink').click()
         root = lxml.html.fromstring(browser.page_source)
-        closing = root.cssselect('#fiscalTerm')[0].text_content().replace(',','').strip()
+        closing = root.cssselect('#fiscalTerm')[0].text_content().replace(',', '').strip()
+        feature = root.cssselect('#tokushoku')[0].text_content().replace(',', '').strip()
+        inspect = root.cssselect('#gyosekiMitoshi')[0].text_content().replace(',', '').strip()
+        topics = root.cssselect('#topixComment')[0].text_content().replace(',', '').strip()
+        fc_ratio = root.cssselect('#gaikokujinMochikabuHiritsu')[0].text_content().replace(',', '').strip()
+        fc_ratio = re.sub(r'\<.*\>\s*', '', fc_ratio).strip()
+        it_ratio = root.cssselect('#toshinMoshikabuHiritsu')[0].text_content().replace(',', '').strip()
+        it_ratio = re.sub(r'\<.*\>\s*', '', it_ratio).strip()
-        browser.find_element_by_css_selector("#InfoPerLink").click()
+        browser.find_element_by_css_selector('#quarterInfoPerformanceLink').click()
         root = lxml.html.fromstring(browser.page_source)
-        jikoshihon = root.cssselect('#value_2')[0].text_content().replace(',','').strip()
-        fw.write('{0},{1},{2},{3}\n'.format(meigaraname,price,closing,jikoshihon))
-        time.sleep(2.0)
+        jikoshihon = root.cssselect('#value_2')[0].text_content().replace(',', '').strip()
+        jikoshihon_ratio = root.cssselect('#value_3')[0].text_content().replace(',', '').strip()
+        rieki_jyouyo = root.cssselect('#value_5')[0].text_content().replace(',', '').strip()
+        yurishi_husai = root.cssselect('#value_6')[0].text_content().replace(',', '').strip()
+        eigyou_cf = re.sub(r'((\s*\d*))', '', root.cssselect('#eigyoCashFlow')[0].text_content().replace(',', '')).strip()
+        eigyou_cf = re.sub(r'((\s*\d*))', '', eigyou_cf).strip()
+        genkin_cf = root.cssselect('#genkin')[0].text_content().replace(',', '').strip()
+        genkin_cf = re.sub(r'((\s*\d*))', '', genkin_cf).strip()
+        fw.write('{0},{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}\n'.format(code, meigara_name, price, closing,jikoshihon, jikoshihon_ratio,rieki_jyouyo, yurishi_husai,eigyou_cf, genkin_cf, fc_ratio,it_ratio, feature, inspect,topics))
     except:
         print(code)
         print(traceback.format_exc(sys.exc_info()[2]))
         pass
 if __name__ == '__main__':
-    main()
+    main()```
-```
 ### 試したこと
 止まる箇所①（検索ボタンを押した先に該当ページが無い場合）
-    browser.find_element_by_id('Button').click()
+    browser.find_element_by_id('meigaraSearchButton').click()
 　　で移動したあとに'#MeigaraName'があれば下の行に
 　　無ければ
     input_code.send_keys(code)
 　　まで戻るような記述がIF式で書ければと思って検索するも解決できないでいます
 止まる箇所②（ボタンがクリックできない場合）
-　　browser.find_element_by_css_selector('#InfoLink').click()
+　　browser.find_element_by_css_selector('#quarterInfoLink').click()
 　　　でクリックできないと止まるようなので
 　　　クリックできるところと出来ないところの違いを見ると
 　出来ない：　<a id="InfoLink" href="#" class="btn is-disabled">
@@ -104,5 +183,13 @@
 　　まで戻るような記述がIF式で書ければと思って検索するも解決できないでいます
 ### 補足情報（FW/ツールのバージョンなど）
+質問用にソースコードを省略していたものを全文記載しました（IP/PASS以外）
+Q.seleniumを使っていたのに、途中でlxmlを使った理由は何でしょうか？
+A.用途に似たソースコードの写経（動かなかったところを色々弄ってみる）をしている段階で
+　selenium＝ブラウザを操作するもの　lxml＝HTMLを解析するもの　程度のイメージしかありません
+　ご質問の趣旨は「seleniumだけで出来るのに何故？」ということかと思いますが
+　私の知識が追い付いておらず申し訳ありません
 ここにより詳細な情報を記載してください。HP