Beautiful Soupで取得したhtmlのbodyに何も入っていない

楽天証券のサイトに自動で入って、保有資産実績が書かれたcsvを定期取得したい

こんばんは。
現在つみたてNISAとiDecoを開始し、保有資産の実績を自動で取得してデータ分析に活かしたいと考えています。
そのため、SeleniumとBeautifulSoupを使って自動でcsvを取ってくるところまで行いたいと考えています。

ところが、BeautifulSoupで取得したhtmlの<body>に何も入っておらず、指定した場所をクリックできなくなってしまいました。

スクリプト

楽天証券のサイトに自動で入り、入ったサイトのURLを取得してその中の<img>タグをクリックしたいです。
以下のようなスクリプトを書きました。

Python
1from selenium import webdriver as WD
2from time import sleep
3from bs4 import BeautifulSoup as bs
4import requests as rq
5
6browser = WD.Chrome()
7url = "https://www.rakuten-sec.co.jp"
8browser.get(url)
9
10
11element1 = browser.find_element_by_id("form-login-id")
12element2 = browser.find_element_by_id("form-login-pass")
13element3 = browser.find_element_by_class_name("s3-form-login__btn")
14
15element1.send_keys("xxxxx")
16element2.send_keys("xxxxx")
17element3.click()
18
19currentUrl = browser.current_url
20
21print(currentUrl)
22
23rq = rq.get(currentUrl)
24soup = bs(rq.text, "html.parser")
25print(soup)
26imgs = soup.find_all("img")
27print(imgs)
28
29#browser.quit()

上記のprint(soup)でhtmlが取得できますが、その中身は以下の通りでした。

html
1<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
2
3<html>
4<script language="javascript">
5<!--
6        // 自動ログアウト制御用のクッキーキーを削除
7        var lDate = new Date();
8        lDate.setTime(0);
9        document.cookie = "alo=;expires="+lDate.toGMTString();
10
11        window.top.location.replace("https://www.rakuten-sec.co.jp/session_error.html");
12
13//-->
14</script>
15<body>
16                  
17                  
18                  
19                  
20                  
21                  
22</body>
23</html>

中身が空っぽなので、<img>を取得しようにもできませんでした。

疑問点

なぜbodyの中身が取れていないのかわからない
どのようにすればbodyの中身が取れるか教えて欲しい

いつもありがとうございます

今日、YouTubeの2時間くらいの講座を受講して覚えた程度の実力です。
そのためまだ実力としては下位レベルで、もしかしたら意味不明な質問をしているかもしれません。

私は完全独学を貫いていますが、それができるのは皆様のおかげです。
どうか、お力添えをお願いいたします。

meg_

2021/02/07 14:11

https://corp.rakuten.co.jp/copyright/ に下記記述がありますので、スクレイピングは禁止のようです。 > 著作権等、当社データの保護について楽天グループ(以下当社)のサービスを通じて提供される全てのコンテンツ(画像、文字、ロゴ、アイコン、動画、音声、アカウント情報、製品リスト、型番、解説、価格、その他のデータを含む全てのもの)及びその編集物は、当社または当社にその利用を許諾した権利者の財産です。これらは各国の著作権法及びその他の知的財産に関する法令によって保護され、また例え著作権法及びその他の知的財産に関する法令により保護されないものであっても、当社の営業活動上の利益に寄与する一切のものについては、当社が法令上の権利を有します。当社は当社による明示的な許諾がない限り、当社のサービスを通じて提供される全てのコンテンツ及びその編集物について、第三者による複製等一切の利用及び、クローラーなどのデータ収集・抽出ツールの使用、データマイニング等の行為を禁止致します。

行動規範の内容に同意します

回答1件

ベストアンサー

Seleniumを使っているのに、なんでまたrequests＋bs4とかしているんでしょう？
Seleniumで完結すれば解決すると思います。

投稿2021/02/07 14:10

otn

総合スコア85901

Murasaki_PurPle

2021/02/20 05:50

otn様回答ありがとうございます。確かにSeleniumだけで作れば問題なかったです。無事動作いたしました。追加の質問で恐縮なのですが、ご教示いただけないでしょうか。 BeautifulSoupでwebページのbody部分を取得できなかった理由がいまだに分かっておりません。なぜこのような事象が発生したのでしょうか。