Python スクレイピング更新情報出力

前提・実現したいこと

Pythonを用いて、任天堂の適時開示情報ページ(https://webapi.yanoshin.jp/webapi/tdnet/list/7974.html?limit=100)
で、更新情報があれば、会社名とURLを出力したく、以下のコーディングを行いました。
しかし、このコードだと、もしも同時刻に複数の更新情報がある場合、全ての更新情報が出力されるわけではなく、一番最新の情報(一番上の行)しか出力されません。
同時刻に複数の更新情報がある場合、全ての更新情報が出力されるようにするにはどのようにすれば良いでしょうか。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

Python
1import requests
2from bs4 import BeautifulSoup
3import schedule
4import time
5
6old_file="test.txt"
7
8def job():
9    url = requests.get("https://webapi.yanoshin.jp/webapi/tdnet/list/7974.html?limit=100").content
10    soup = BeautifulSoup(url, 'html.parser')
11    table=soup.findAll("table")[0]
12    tr=soup.findAll("tr")[0]
13    name=tr.findAll("td")[1]
14    name=name.getText()
15    url=tr.findAll("td")[2]
16    url=url.a.get("href")
17    global old_file
18    if tr==old_file:
19        pass
20    else:
21        print(f"更新あり 銘柄名 : {name} URL : {url}" )
22        
23    old_file=tr
24
25schedule.every(5).seconds.do(job)
26while True:
27  schedule.run_pending()
28  time.sleep(1)
29
30job()

試したこと

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答1件

ベストアンサー

あえて構造化されてないHTMLをスクレイピングする必要はないと思うんですが・・・

https://webapi.yanoshin.jp/tdnet/
をきちんと読めば、親切にjsonで返してくれるエンドポイントが存在することがわかります。
それを使うとより簡単にプログラムが書けます。
（なお下記そのままコピペしても動かないようにurlの一部を変えてありますので、適宜修正してください）

import requests
import schedule
import time
import json

old_file="test.txt"

def job():
    # 取得する日時（ファイル名と共用（？）コード内で拡張子.txtはつけられていないが・・・）
    tr = ''
    resp = requests.get("https://webapi.yanoshin.jp/webapi/tdnet/list/［取得したい銘柄］.json2?limit=［取得する数］")
    data = resp.json()
    result = []
    for item in data.get("items", []):
        tdnet = item.get("Tdnet")
        if tdnet is None:
            break
        published_at = tdnet.get("pubdate")
        # 最新の日時の開示のみ取得する。
        if tr == '':
            tr = published_at
        elif published_at != tr:
            break

        result.append(
            dict(
                name = tdnet.get("company_name"),
                published_at = published_at,
                title = tdnet.get("title"),
                url = tdnet.get("document_url")
            )
        )
    if tr == '':
        print("データを取得できませんでした")
    elif tr == old_file:
        print("更新なし。　直近の取得日時：", tr)
    else:
        print(f"日時： {tr}")
        for r in result:
            print(f"更新あり 銘柄名 : {r['name']} URL : {r['url']}" )

（以下修正なしのため略）

投稿2021/01/23 05:50

編集2021/01/23 06:05

退会済みユーザー

総合スコア0

hfjdsfh_48

2021/01/23 08:32

ありがとうございます。JSON形式でのスクレイピングをやった事がなかったので大変勉強になりました。質問ですが、tr = ''　　←この部分はどういう意味でしょうか？ご教授頂けますと幸いです。

退会済みユーザー

2021/01/24 00:00 編集

回答したコードの12行目（空白行を除きます）のforループの処理で取得したデータのうち1番目の開示日を格納しておくための変数です。御質問の要件「同時刻に複数の更新情報がある場合、全ての更新情報が出力されるようにする」ためのキモとなる変数でもあります。 job関数を呼び出してforループに初めて入ったとき、trは''（空白）の状態です。（8行目） 17行目「 published_at = tdnet.get("pubdate")」で、published_atという変数に、webからとってきた開示データの開示日が格納されます。最初は、18行目「if tr==''」はTrueとなるので、19行目の「 tr = published_at」により、trに1番目のデータの開示日が代入されます。ループ2回目以降はtrに値が入っている状態のため 18行目「if tr==''」はFalseとなり、 20行目の「elif published_at != tr:」が判定されることになります。ここで、published_at と tr が等しい、すなわち、最初に取得したデータの開示日と、2番目以降に取得したデータの開示日が等しい場合は、21行目のbreakは実行されません。逆に、published_at と tr が異なる（「!=」)、すなわち、最初に取得したデータの開示日と、2番目以降に取得したデータの開示日が異なる場合は、21行目のbreakが実行され、forループを抜けます。（つまり、開示日が同じ間は取得したデータをresultに追加し続け、開示日が異なっていれば、そこで処理を打ち切っています）

hfjdsfh_48

2021/01/24 13:14

よく理解できました。ご教授いただきました内容を元に以下のコードで期待する動作を確認できました。 import schedule import time import json import requests old_file="test.txt" def job(): tr="" resp = requests.get("https://webapi.yanoshin.jp/webapi/tdnet/list/2230.json2?limit=100") data = resp.json() result = [] for item in data.get("items", []): tdnet = item.get("Tdnet") if tdnet is None: break published_at = tdnet.get("pubdate") # 最新の日時の開示のみ取得する。 if tr == '': tr = published_at elif published_at != tr: break result.append( dict( name = tdnet.get("company_name"), published_at = published_at, title = tdnet.get("title"), url = tdnet.get("document_url") ) ) global old_file if tr == '': print("データを取得できませんでした") elif tr == old_file: pass #print("更新なし。　直近の取得日時：", tr) else: print(f"日時： {tr}") for r in result: print(f"更新あり銘柄名 : {r['name']} URL : {r['url']}" ) old_file=tr schedule.every(1).seconds.do(job) while True: schedule.run_pending() time.sleep(1) job()

hfjdsfh_48

2021/01/25 12:09

追加で質問ですが、上記のコードの場合は1つの銘柄の情報のみですが、複数の銘柄の情報を同じように取る場合どうすれば良いでしょうか。

退会済みユーザー

2021/01/25 12:59

別質問を立ててください。

行動規範の内容に同意します