<table><tr>が終了タグしかなくうまくスクレイピングできない

前提・実現したいこと

スクレイピングによってweb上のテーブルタグから情報を抜き出し、CSVファイルを得たい。

発生している問題・エラーメッセージ

スクレイピングしたいページ
https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06

ここから<table>で書かれた遅延情報を抜き出したいが、ヘッダーの次の日付までは<tr> </tr>で行が形成されているが、次の行から、終了タグ</tr>だけで区切られており、Beautifulsoup4のfind_all('tr')でタグを回収できない。
この場合、この形式のテーブルからどうCSVファイルを抜き出すのかがわからない。

該当のソースコード

python3.7
1ソースコード

from urllib.request import urlopen
from bs4 import BeautifulSoup
import csv

html = urlopen("https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06")
bsobj = BeautifulSoup(html, "lxml")

table = bsobj.find_all("table")
rows = table[0].find_all("tr")
↑ここからどうCSVにすればいいかが不明

mistn

2019/05/04 01:27

以前にも似たような問題で質問していますね。今回も同じ原因なのではないでしょうか。 Beautifulsoup4のパーサについて少し調べてみて、色々試してみて下さい。それでもだめだったときは試したコードと結果を追記してください。

pythonista

2019/05/07 12:46

>mistnさん申し訳ございません、不勉強でした。破損したタグの取り扱い、パーサーについての知識を今一度勉強しなおします。

行動規範の内容に同意します

回答1件

ベストアンサー

Beautifulsoupはそんなにタグの破損に強くないので、限界はあると思います。

タグが破損している場合の処理については、ブラウザ側の対応が神すぎて上手く表示処理されてしまっており、サイト運営者が気づかないまま公開されて続けています。コード品質が低い原因の一つだと思っています。

それはさておき、最近はHTMLパーサの動作について共通の規格が策定されつつあり、近代的なパーサであればブラウザと同等の処理ができるように進化しています。

残念ながらBeautifulsoupは古いツールでそのへんは加味していない。。ということなのだと思います。

javascriptだと https://github.com/fb55/htmlparser2 などは有名なのかな？
最近だとpythonよりもNode系、javascriptのライブラリのほうが高機能になっていると思います。

最近のpythonのライブラリはよく知りませんが、新しいものを探してみると良いかもしれません。

投稿2019/05/04 06:03

otolab

総合スコア765

pythonista

2019/05/07 12:42

大変参考になりました。破損したタグを扱いにくいという点は、目からうろこでした。現在は、破損したHTMLを文字列としてタグを修復し、BeautifulSoup4でパースして扱うパターンに挑戦しています。これが完了したら、otolabさんのおっしゃる新しいライブラリを探してみようと思います。本当にありがとうございます。

行動規範の内容に同意します