[Python]NYダウのデータの過去データを、スクレイピングで取り込みたい

NYダウのデータの過去データを、スクレイピングで取り込みたい

対象のURL
https://finance.yahoo.com/quote/%5EDJI/history?p=%5EDJI

■■対象のURLのOpen、High、Low、Close、Volumeの値を、当日から過去までスクレイピングでCSVに出力したいのですが、
デベロッパーツールに表示されているコードを指定しても、値がうまく指定できません。

■■Yahooニュースなどは思った通りに書き出せるのですが、対象のサイトはどうやってクラスとIDを指定すればいいのかわかりません
（記載はないのですが、もしかしてスクレイピング防止のためでしょうか？）

■■下記、デベロッパーツールに表示されているもので、自分が指定したクラス
Yahooニュース等のソースコードにはなかったのですが、タグに「%」や「px」が入っています。
こういったソースコードの場合、何か特別な処理が必要なのでしょうか？

例）

<div class="Pb(10px) Ovx(a) W(100%)" data-reactid="32"> <span data-reactid="55">34,757.57</span> など

発生している問題・エラーメッセージ

何日も調べて何日もハマってます。。どなたか教えてください。

AttributeError: 'NoneType' object has no attribute 'find_all'

または

None

と出力される

該当のソースコード

python
1import requests
2from bs4 import BeautifulSoup
3
4try:
5    load_url = "https://finance.yahoo.com/quote/%5EDJI/history?p=%5EDJI"
6    html = requests.get(load_url)
7    soup = BeautifulSoup(html.content, "html.parser")
8except: 
9    print("ページが見つかりません")
10
11topic = soup.find(class_="Pb(10px) Ovx(a) W(100%)")
12for element in topic.find_all("span"):
13        print(element.text)
14

補足情報（FW/ツールのバージョンなど）

Jupyter Notebook

行動規範の内容に同意します

回答1件

ベストアンサー

コードを実行してみたところ、どうやらHTMLが取得できていないようです。次のコードを、requests.getした後の行に追記して値を確認してみてください。404と出力されると思います。

python
1print(html.status_code)

何でこうなるのか、僕も気になったので調べてみました。そうしたら、同じような問題に引っかかってStackOverflowで質問している方がいました。

https://stackoverflow.com/questions/47506092/python-requests-get-always-get-404

この記事によると、requestsはデフォルトでいくつかリクエストヘッダをセットするみたいです。そしてその中にはUser-Agentも含まれています。
どうやら、サービスの提供者（今回の場合はYahoo）はrequestsが付与するユーザエージェントをブラックリストに登録していて、そのユーザエージェントからのリクエストを一律禁止しているから404が返却されるというのが真相のようです。

一応、当該Stackoverflowの方にも解決方法は載っており、ユーザエージェントを明示的に指定すればブラックリスト候補から外れるのでHTMLを取得できるようになります。実際やってみたら取得することはできました。

ただ、Stackoverflowの回答者の方も述べられていますが、requestsのアクセスを禁じているということは、おそらくサイトの利用規約でスクレイピングが禁止されているのではないかと思います。なので、残念ですが当該HPのスクレイピングはやめておいたほうがいいと私は思います。

余談ですが、検証がてらrequestsが実際にどんなリクエストヘッダを付与してリクエストしているのか、適当なWebサーバを立ててリクエストヘッダを確認してみました。下がその結果です。この通り、python-requests/2.26.0というのが入っていますね。ちなみに、2.26.0はライブラリのバージョンのようです。おそらく、python-requestsとか、その辺りが含まれているユーザエージェントをアクセス禁止にしているのではないでしょうか？

{
  host: 'localhost:3001',
  'user-agent': 'python-requests/2.26.0',
  'accept-encoding': 'gzip, deflate',
  accept: '*/*',
  connection: 'keep-alive'
}

投稿2021/10/12 17:17