トップ Python 3.xに関する質問 pythonでの結果をexcelに出力する方法

編集履歴

回答編集履歴

関数の定義順を呼び出し順に変更

2018/07/23 13:29

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -162,7 +162,7 @@
 ```
 ---
-以下の`False`の仕様がよく分かりませんでしたので、その部分がうまく実装できてないと思いますが。
+以下の`False`の仕様がよく分かりませんでしたので、その部分がうまく実装できてないですが。
 質問文の画像を見る限りこういうふうに出力したいのでしょうか。
 ```Python
 if not has_pdf_link:
@@ -189,20 +189,36 @@
 import time
-def change_window(browser):
+def get_search_keyword():
+    """
+    エクセルファイルを開き、検索キーワードを取得する。
+    """
+    # テスト用
+    #yield "血液照射装置"
+    #yield "放射性医薬品合成設備"
-    all_handles = set(browser.window_handles)
+    from contextlib import closing
-    switch_to = all_handles - set([browser.current_window_handle])
+    with closing(op.load_workbook('一般名称.xlsx')) as wb:
-    assert len(switch_to) == 1
+        for i in range(1, 9):
+            ws = wb.active
-    browser.switch_to.window(*switch_to)
+            yield ws['A' + str(i)].value
-def get_content(word):
+def get_content(word: str) -> tuple:
     """
     スクレイピングする。
     :param word 検索キーワード
     :return スクレイピング結果(HTML)とURL
     ※ chromedriver.exe をCドライブ直下に置くこと。
     """
+    def change_window(browser):
+        """
+        ブラウザのウィンドウを切り替える。
+        """
+        all_handles = set(browser.window_handles)
+        switch_to = all_handles - set([browser.current_window_handle])
+        assert len(switch_to) == 1
+        browser.switch_to.window(*switch_to)
     driver = webdriver.Chrome(r'C:/chromedriver.exe')
     driver.get("https://www.pmda.go.jp/PmdaSearch/kikiSearch/")
     # id検索
@@ -216,23 +232,11 @@
     # print(driver.page_source)
     html = driver.page_source
     cur_url = driver.current_url
+    driver.quit()
     return html, cur_url
-def get_search_keyword():
-    """
-    エクセルファイルを開き、検索キーワードを取得する。
-    """
-    # テスト用
-    #yield "血液照射装置"
-    #yield "放射性医薬品合成設備"
-    from contextlib import closing
-    with closing(op.load_workbook('一般名称.xlsx')) as wb:
-        for i in range(1, 9):
-            ws = wb.active
-            yield ws['A' + str(i)].value
 def parse(soup, cur_url: str):
     """
     スクレイピング結果を解析
@@ -262,6 +266,7 @@
     #wb.save('URL_DATA.xlsx')
 def main():
     START_ROW = 0
     row_index = 1
@@ -271,9 +276,7 @@
         output = []
         time_data = datetime.datetime.today()
         for i, (has_pdf_link, link_pdf) in enumerate(parse(soup, cur_url), start=START_ROW):
-            word_col = ""
+            word_col = word if i == START_ROW else ""
-            if i == START_ROW:
-                word_col = word
             output.append([time_data, link_pdf, word_col])
         output_excel(output, row_index)
@@ -282,4 +285,5 @@
 if __name__ == "__main__":
     main()
 ```

補足

2018/07/23 13:29

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -159,4 +159,127 @@
 if __name__ == "__main__":
     main()
+```
+---
+以下の`False`の仕様がよく分かりませんでしたので、その部分がうまく実装できてないと思いますが。
+質問文の画像を見る限りこういうふうに出力したいのでしょうか。
+```Python
+if not has_pdf_link:
+    print('False')
+    ws['B'+str(i)].value = has_pdf_link
+    time.sleep(2)
+    time_data = datetime.datetime.today()
+    ws['A'+str(i)].value = time_data
+```
+```Python
+# -*- coding: utf-8 -*-
+from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.support.ui import WebDriverWait
+from urllib import request
+from bs4 import BeautifulSoup
+import requests
+from urllib.parse import urljoin
+import openpyxl as op
+import datetime
+import time
+def change_window(browser):
+    all_handles = set(browser.window_handles)
+    switch_to = all_handles - set([browser.current_window_handle])
+    assert len(switch_to) == 1
+    browser.switch_to.window(*switch_to)
+def get_content(word):
+    """
+    スクレイピングする。
+    :param word 検索キーワード
+    :return スクレイピング結果(HTML)とURL
+    ※ chromedriver.exe をCドライブ直下に置くこと。
+    """
+    driver = webdriver.Chrome(r'C:/chromedriver.exe')
+    driver.get("https://www.pmda.go.jp/PmdaSearch/kikiSearch/")
+    # id検索
+    elem_search_word = driver.find_element_by_id("txtName")
+    elem_search_word.send_keys(word)
+    # name検索
+    elem_search_btn = driver.find_element_by_name('btnA')
+    elem_search_btn.click()
+    change_window(driver)
+    # print(driver.page_source)
+    html = driver.page_source
+    cur_url = driver.current_url
+    return html, cur_url
+def get_search_keyword():
+    """
+    エクセルファイルを開き、検索キーワードを取得する。
+    """
+    # テスト用
+    #yield "血液照射装置"
+    #yield "放射性医薬品合成設備"
+    from contextlib import closing
+    with closing(op.load_workbook('一般名称.xlsx')) as wb:
+        for i in range(1, 9):
+            ws = wb.active
+            yield ws['A' + str(i)].value
+def parse(soup, cur_url: str):
+    """
+    スクレイピング結果を解析
+    """
+    for a_tag in soup.find_all('a'):
+        link_pdf = (urljoin(cur_url, a_tag.get('href')))
+        #print(link_pdf)
+        # link_PDFから文末がpdfと文中にPDFが入っているものを抽出
+        if (not link_pdf.lower().endswith('.pdf')) and ('/ResultDataSetPDF/' not in link_pdf):
+            continue
+        if 'searchhelp' not in link_pdf:
+            yield True, link_pdf
+def output_excel(output:list, row_index: int):
+    """
+    エクセルに出力する。
+    :param output 行データ
+    :param row_index 出力するための開始行
+    """
+    #wb = op.load_workbook('URL_DATA.xlsx')
+    #ws = wb.active
+    print("#" * 50)
+    for i, (time_data, link_pdf, word_col) in enumerate(output, start=row_index):
+        print(i , time_data, link_pdf,word_col)
+        # ここにエクセルの設定処理を
+    #wb.save('URL_DATA.xlsx')
+def main():
+    START_ROW = 0
+    row_index = 1
+    for word in get_search_keyword():
+        html, cur_url = get_content(word)
+        soup = BeautifulSoup(html, 'html.parser')
+        output = []
+        time_data = datetime.datetime.today()
+        for i, (has_pdf_link, link_pdf) in enumerate(parse(soup, cur_url), start=START_ROW):
+            word_col = ""
+            if i == START_ROW:
+                word_col = word
+            output.append([time_data, link_pdf, word_col])
+        output_excel(output, row_index)
+        row_index += len(output)
+if __name__ == "__main__":
+    main()
 ```

追記

2018/07/23 11:29

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -76,4 +76,87 @@
 もしくはウィンドウズ環境にしかない`xlsx`ではなく汎用性のあるデータ構造csv形式など。
 この質問は**リストに質問文の画像のような形で値を格納したい**とも言いかえれます。
-こちらなら環境を選ばないので回答が付きやすいかと。
+こちらなら環境を選ばないので回答が付きやすいかと。
+---
+◇不具合
+2列目に`False`が出力される原因はこのコードですね。
+`has_pdf_link`が`Bool`型で値が`False`が設定されています。
+```Python
+if not has_pdf_link:
+        print('False')
+        ws['B'+str(i)].value = has_pdf_link
+```
+試しに`selenium`と`openpyxl`を使わないように出力はリストになるように書き換えてみました。
+```Python
+# -*- coding: utf-8 -*-
+from bs4 import BeautifulSoup
+from urllib.parse import urljoin
+import datetime
+import time
+#import openpyxl as op
+def get_content(word: str):
+    return """
+    <table class="SearchResultTable" id="ResultList">
+    <tbody><tr>
+    	<th scope="col" style="width:13em" nowrap="">一般的名称</th>
+    	<th scope="col" style="width:15em" nowrap="">販売名</th>
+    	<th scope="col" style="width:15em" nowrap="">製造販売業者等</th>
+    	<th scope="col" style="width:13em" nowrap="">添付文書</th>
+    	<th scope="col" style="width:13em" nowrap="">改訂指示<br />反映履歴</th>
+    	<th scope="col" style="width:13em" nowrap="">審査報告書／<br />再審査報告書等</th>
+    	<th scope="col" style="width:13em" nowrap="">緊急安全性情報</th>
+    </tr>
+    <tr class="TrColor01">
+    	<td><div><a target="_blank" href="/PmdaSearch/kikiDetail/GeneralList/20500BZZ00241000_A_01">血液照射装置</a></div></td>
+    	<td><div>日立Ｘ線照射装置 ＭＢＲ−１５２０Ａ−ＴＷ</div></td>
+    	<td><div>製造販売／株式会社 日立メディコ</div></td>
+    	<td><div><a href="javascript:void(0)" onclick="detailDisp(&quot;PmdaSearch&quot; ,&quot;650053_20500BZZ00241000_A_01_01&quot;);">HTML</a><br /><a target="_blank" href="/PmdaSearch/kikiDetail/ResultDataSetPDF/650053_20500BZZ00241000_A_01_01">PDF (2007年12月19日)</a></div></td>
+    	<td></td>
+    	<td></td>
+    	<td></td>
+    </tr>
+    </tbody></table>
+    """, "https://www.pmda.go.jp/PmdaSearch/kikiSearch/"
+def get_search_keyword():
+    # テスト用
+    yield "血液照射装置"
+    yield "放射性医薬品合成設備"
+def parse(soup, cur_url: str):
+    """
+    スクレイピング結果を解析
+    """
+    for a_tag in soup.find_all('a'):
+        link_pdf = (urljoin(cur_url, a_tag.get('href')))
+        # link_PDFから文末がpdfと文中にPDFが入っているものを抽出
+        if (not link_pdf.lower().endswith('.pdf')) and ('/ResultDataSetPDF/' not in link_pdf):
+            continue
+        if 'searchhelp' not in link_pdf:
+            yield True, link_pdf
+def main():
+    for i, word in enumerate(get_search_keyword(), start=1):
+        html, cur_url = get_content(word)
+        soup = BeautifulSoup(html, 'html.parser')
+        output = []
+        time_data = datetime.datetime.today()
+        for has_pdf_link, link_pdf in parse(soup, cur_url):
+            output.append([time_data, link_pdf, word])
+            print(link_pdf)
+        print(output)
+if __name__ == "__main__":
+    main()
+```

変更！

2018/07/23 10:42

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -2,9 +2,9 @@
 `一般名称.xlsx`の行を取得するための`index`と
 `URL_DATA.xlsx`に出力するための行番号(`index`)で使い回しを行っているからかと。
 別の変数としてください。
-行単位に出力するならば、listにtupleで格納するのも良いのではないかと。
+行単位に出力するならば、listにtupleで格納するのも良いのでは。
-2, 日付が各行に出力されない原因は以下のインデントが一段深いからかと。
+2, 日付が各行に出力されない原因は以下のインデントが一段深いです。
 ```Python
 time.sleep(2)
 time_data = datetime.datetime.today()
@@ -12,13 +12,6 @@
 ws['A'+str(i)].value = time_data
 ```
-3, 無条件にエクセルに出力を行っています。
-```Python
-wb = op.load_workbook('URL_DATA.xlsx')
-ws = wb.active
-ws['C'+str(i)].value = word # ←この箇所
-```
 ---
 追記・修正依頼欄に書ききれないので。

追記

2018/07/23 08:56

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -80,10 +80,7 @@
 ---
 b, 次に`一般名称.xlsx`や`URL_DATA.xlsx`のファイルが回答者の環境には無いため実行再現しずらいです。
 適当なサンプルデータを質問文に追記していただくか。
+もしくはウィンドウズ環境にしかない`xlsx`ではなく汎用性のあるデータ構造csv形式など。
-もしくはウィンドウズ環境にしかない`xlsx`ではなく汎用性のあるデータ構造
-特にxlsxはので余計に回答が付きづらくなります。
 この質問は**リストに質問文の画像のような形で値を格納したい**とも言いかえれます。
 こちらなら環境を選ばないので回答が付きやすいかと。

追記

2018/07/23 08:51

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -1,8 +1,9 @@
 1, デバックしていませんがコードを見て原因は`for i in range(1,9):`だと思います。
 `一般名称.xlsx`の行を取得するための`index`と
-`URL_DATA.xlsx`に出力するための行番号(`index`)で使い回しをしているためかと。
+`URL_DATA.xlsx`に出力するための行番号(`index`)で使い回しを行っているからかと。
-別の変数とするか、`一般名称.xlsx`はこのループでは処理せずに、もう1つループを作ってリストに値を格納する形にしてください。そして`for i in range(1,9):`のループはリストを回せばよいでしょう。
+別の変数としてください。
-もしくは回答文の下の方で別関数(`get_search_keyword`)にするコードに変更したのでこれでも良いかと。
+行単位に出力するならば、listにtupleで格納するのも良いのではないかと。
 2, 日付が各行に出力されない原因は以下のインデントが一段深いからかと。
 ```Python
 time.sleep(2)
@@ -10,6 +11,14 @@
 ws['A'+str(i)].value = time_data
 ```
+3, 無条件にエクセルに出力を行っています。
+```Python
+wb = op.load_workbook('URL_DATA.xlsx')
+ws = wb.active
+ws['C'+str(i)].value = word # ←この箇所
+```
 ---
 追記・修正依頼欄に書ききれないので。
@@ -41,7 +50,9 @@
     change_window(driver)
     # print(driver.page_source)
+    html = driver.page_source
-    return driver.page_source, driver.current_url
+    cur_url = driver.current_url
+    return html, cur_url
 ```

追記

2018/07/23 08:50

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -2,7 +2,7 @@
 `一般名称.xlsx`の行を取得するための`index`と
 `URL_DATA.xlsx`に出力するための行番号(`index`)で使い回しをしているためかと。
 別の変数とするか、`一般名称.xlsx`はこのループでは処理せずに、もう1つループを作ってリストに値を格納する形にしてください。そして`for i in range(1,9):`のループはリストを回せばよいでしょう。
+もしくは回答文の下の方で別関数(`get_search_keyword`)にするコードに変更したのでこれでも良いかと。
 2, 日付が各行に出力されない原因は以下のインデントが一段深いからかと。
 ```Python
 time.sleep(2)

変更！

2018/07/23 08:37

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -48,6 +48,24 @@
 ```Python
 html, cur_url = get_content(word)
 ```
+一般名称.xlsxから検索キーワードを取得する部分は以下のように（未テスト）
+```Python
+def get_search_keyword():
+    """
+    エクセルファイルを開き、検索キーワードを取得する。
+    """
+    # テスト用
+    #yield "血液照射装置"
+    #yield "放射性医薬品合成設備"
+    from contextlib import closing
+    with closing(op.load_workbook('一般名称.xlsx')) as wb:
+        for i in range(1, 9):
+            ws = wb.active
+            yield ws['A' + str(i)].value
+```
+```Python
+for i, word in enumerate(get_search_keyword(), start=1):
+```
 ---
 b, 次に`一般名称.xlsx`や`URL_DATA.xlsx`のファイルが回答者の環境には無いため実行再現しずらいです。
 適当なサンプルデータを質問文に追記していただくか。

補足

2018/07/23 08:34

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -1,12 +1,19 @@
-デバックしていませんがコードを見て原因は`for i in range(1,9):`だと思います。
+1, デバックしていませんがコードを見て原因は`for i in range(1,9):`だと思います。
 `一般名称.xlsx`の行を取得するための`index`と
 `URL_DATA.xlsx`に出力するための行番号(`index`)で使い回しをしているためかと。
 別の変数とするか、`一般名称.xlsx`はこのループでは処理せずに、もう1つループを作ってリストに値を格納する形にしてください。そして`for i in range(1,9):`のループはリストを回せばよいでしょう。
+2, 日付が各行に出力されない原因は以下のインデントが一段深いからかと。
+```Python
+time.sleep(2)
+time_data = datetime.datetime.today()
+ws['A'+str(i)].value = time_data
+```
 ---
 追記・修正依頼欄に書ききれないので。
-0. 初心者の方に多いのですが、質問者さんのように処理を一つの関数にどんどん追加していく人が多いです。
+a. 初心者の方に多いのですが、質問者さんのように処理を一つの関数にどんどん追加していく人が多いです。
 これをしてしまうとなんらかの問題がソースコードに発生したときに、
 どこの処理が問題なのかの原因の切り分けが不可能になりやすいです。
 今回の件は出力の問題なのでスクレイピングは**ほぼ**関係ないですよね。
@@ -42,7 +49,7 @@
 html, cur_url = get_content(word)
 ```
 ---
-2, 次に`一般名称.xlsx`や`URL_DATA.xlsx`のファイルが回答者の環境には無いため実行再現しずらいです。
+b, 次に`一般名称.xlsx`や`URL_DATA.xlsx`のファイルが回答者の環境には無いため実行再現しずらいです。
 適当なサンプルデータを質問文に追記していただくか。
 もしくはウィンドウズ環境にしかない`xlsx`ではなく汎用性のあるデータ構造

追記

2018/07/23 08:17

投稿

umyu

スコア5846

answer CHANGED Viewed

@@ -8,10 +8,12 @@
 0. 初心者の方に多いのですが、質問者さんのように処理を一つの関数にどんどん追加していく人が多いです。
 これをしてしまうとなんらかの問題がソースコードに発生したときに、
-どこの処理が原因なのかの原因の切り分けが不可能になりやすいです。
+どこの処理が問題なのかの原因の切り分けが不可能になりやすいです。
+今回の件は出力の問題なのでスクレイピングは**ほぼ**関係ないですよね。
+でも同じ関数内に書いてしまうと**ほぼ**なのでもしかしたら関係あるかもで調査する必要があります。
 対策としては適度な関数分割です。
-スクレイピングをして、HTMLを取得する部分に関してこのようにできます。
+スクレイピングをして、HTMLを取得する部分のコードは以下のようにできます。
 こうすることでスクレイピングの処理は関数内で閉じているので、該当の処理は意識しなくても良くなります。
 ```Python
 def get_content(word):
@@ -47,5 +49,5 @@
 特にxlsxはので余計に回答が付きづらくなります。
-この質問は**検索キーワードを元にリストに値を格納したい**とも言いかえれます。
+この質問は**リストに質問文の画像のような形で値を格納したい**とも言いかえれます。
 こちらなら環境を選ばないので回答が付きやすいかと。