特定の情報をスクレイピングしたい

###　
プログラミング初心者です。
Pythonを使ってWebスクレイピングを行うプログラムを書いています。

Arcserveというアプリケーションのバージョン情報を以下のURLサイト(後述)の、
"ARCSERVE BACKUP R17.5 FOR WINDOWS DOWNLOAD INFORMATION LIST"
から取得したいです。
具体的には、"release date","Contents","file name"カラム(蛍光ペンで囲んだ列)の情報です。

開発者ツールでHTML要素見ると、上の情報は<td>タグで囲まれているため、
soup.findAll('td')と書き、全ての<td>タグを抽出しようとしました。
しかしいざプログラムを書き実行してみると、エラーメッセージではなく、[]が出るだけで、
情報が取得できません。

findAllの部分をselectにしたり、対象のタグをclassに変えてみたりと試したのですが
うまくいかず、先に進めない状態です。
今回の場合、どのようにコードを書けば、希望の情報を抽出できるでしょうか。

非常に初歩的な質問で申し訳ないのですが、お力添え頂ければ幸いです。。

ArcserveアプリケーションURL：
https://support.arcserve.com/s/article/115001198543?language=ja
開発環境
・macOS
・python3以降
・IDEは使っておらず、テキストエディタ上でコーディングしている

コード

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
import sys

url = "https://support.arcserve.com/s/article/115001198543?language=ja"

r = requests.get(url)

soup = BeautifulSoup(r.text, 'html.parser')
# 入れ子要素を取得する場合は、soupの後ろに".'要素タグ'."を入れる

# バージョン情報を抽出
version_elem = soup.findAll('td')
print(version_elem)

エラーメッセージ

$ python Arcserve.py
[]

行動規範の内容に同意します

回答1件

ベストアンサー

r.textの中身をファイルに書いて、それを見ればわかると思いますが、tdタグは含まれていません。

requests.getで取得できるHTMLは、開発者ツールで見るHTMLじゃなくて、画面を右クリックで「ソースを見る」で見るHTMLです。これがサーバーから受け取るHTMLです。

ブラウザ画面や開発者ツールで見えるものは、それにJavaScriptが編集を加えた結果です。

JavaScriptで編集されたHTMLを処理したいときは、ブラウザをコントロールするSeleniumというライブラリを使うことが多いようです。
Teratailでも「Python ＋ Selenium 」のタグでたくさん質問がされています。

投稿2019/12/01 13:22

otn

総合スコア84557

beginner-

2019/12/01 14:30

otnさん迅速なご回答ありがとうございます。「ソースを見る」と開発者ツールで見るHTMLは別物なんですね(お恥ずかしながら初めて知りました。確かにJavaScriptはWebサイト上で動作するとは聞いたことがあるので納得です。) おっしゃる通り、Seleniumに関する質問が多数ありますね。少し調べてみようと思います。

barobaro

2019/12/02 02:57

Seleniumで試してみましたが目的のテキストが見つからなかったので難しそうですね。試しにRPAのUiPATHなら表データ取り出しできました。

beginner-

2019/12/02 14:30

barobaroさん Seleniumでトライしてみましたが、どうもうまくいかず。。 RPAでもスクレイピングができるんですね。！並行して調べてみようと思います。

barobaro

2019/12/02 23:16

UiPATHならこちらのページで【できるUiPath】データスクレイピングでWebページの表データを読み取ろう https://dekiru.net/article/17705/ ブラウザに表示されているものをスクレイピングするので簡単です。表をクリックして表全体を抽出し、抽出したデータをCSVで書き出しをするだけです。

beginner-

2019/12/04 12:30

otnさん　barobaroさん回答ありがとうございました！いろいろと教えていただき非常に勉強になります。一つずつ試し、スクレイピングを覚えていきたいと思います。ありがとうございました！

行動規範の内容に同意します