前提・実現したいこと
ECサイトの在庫状況を数秒ごとに監視するツールを作成したいです。
人気商品の在庫状況を確認したいので、1~3秒ごとに在庫を監視する方法を調査しています。
商品ページのHTMLファイルを取得し、HTMLファイルから在庫状況の文言(在庫あり/在庫なし)を抽出するという方法を試してみたのですが、HTMLを取得するのに10秒近くかかってしまします。
google.comなど情報量の少ないページは1秒ほどで取得できるのですが、情報量の多いECサイトの商品ページだと時間がかかってしまいます。
HTMLファイルの大きさは150KB程で必要な情報は1行で済むのですが、効率よく取得する方法が不明です。
何かいい方法をご存知の方がおられましたら、ご教示お願いします。
~追記~
規約でツールを使って情報収集が認められているサイトでしか監視は行いません。APIのないサイトを監視したいのでAPIは使わない方法を探しています。また、長期的に監視するつもりもありません。
~~~~
よろしくお願いします。
試したこと
HTMLの取得はLinuxのcurlコマンドとPythonのrequests.getコマンドを試しました。
・curl
$ curl -sS -o ./output $URL
・requests.get
output=requests.get('URL')