pythonで<table>の中身を取得したいが一部しかできない

前提・実現したいこと

初めての質問なので拙かったり不足している表現がありましたら、申し訳ございません。

JRの遅延情報のページ
https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06
のテーブルをスクレイピングしてcsvファイル化しようと2通りの方法で試したのですが
テーブルの頭の部分しかスクレイピングできないです。

発生している問題・エラーメッセージ

スクレイピングしても本日2019年4月30日から過去45日まで表示している遅延データが最初の4月29日、4月28日までしか取得できない。

該当のソースコード

python3.6(anacondaインストール済み、spyder上で検証)
1１つ目
2import pandas as pd
3
4dfs=pd.read_html('https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06')
5実行部
6dfs
7
8２つ目
9from urllib.request import urlopen
10from bs4 import BeautifulSoup
11
12
13
14html = urlopen("https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06")
15bsobj = BeautifulSoup(html, "html.parser")
16
17table = bsobj.find_all("table")
18
19実行部
20table

試したこと

補足情報（FW/ツールのバージョンなど）

行動規範の内容に同意します

回答1件

ベストアンサー

使っているパーサの種類が原因のようです。

python
1bsobj = BeautifulSoup(html, "html.parser")

を

python
1bsobj = BeautifulSoup(html, "lxml")

にするときちんとtableタグが取得できると思います。

投稿2019/04/30 07:47

mistn

総合スコア1191

pythonista

2019/05/03 11:33

しっかりと情報を取得することができました。丁寧な解説ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！