質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.82%

HTML文字列の</tr>タグの個数を知りたいが、htmlソースに実際に存在する</tr>の個数とプログラムの結果が異なる。

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 702

pythonista

score 20

実現したいこと

JR東日本の中央本線の遅延情報をスクレイピングしたい。
遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
そこで、自力でhtmlファイルを修復するプログラムを考えている。
具体的には、<tr>---</tr>が終了タグ</tr>しかないため</tr>の後ろに<tr>をつけて、しっかりテーブルの行要素をタグで囲ってBeautifulSoup4で取得できるようにしたい。

発生している問題・エラーメッセージ

まず最初に、htmlソースコードを文字列化して、</tr>のインデックスを確かめたい
そのために、</tr>が文字列中に何回登場するかを計算した。
JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。

イメージ説明
5月1日のデータです。
</tr>のタグのみで、開始タグが見当たりません。

該当のソースコード

from bs4 import BeautifulSoup
from urllib.request import urlopen

#サイトを取り入れる
site=urlopen('https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06')

html=BeautifulSoup(site,'lxml')
table=html.find_all('table')[0]     #HTMLソースコードを文字列化して<table>部分だけ回収する
k=str(table)
cnt=0     #<table>中にある</tr>の個数
l=0     #文字列の左から数えて</tr>が何番目か
while '</tr>' in k:
   l=k.find('</tr>')
   l+=5     #</tr>分だけ右にずらす
   k=k[l:]
   cnt+=1

#実行部
print(cnt)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • kgm

    2019/05/09 23:46

    中央線の遅延証明書履歴
    https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06
    このページを見たところ、すべてのtrタグは<tr></tr>で囲われていました。
    問題ないように見えます。
    </tr>しかないのならば、そもそもテーブルの表示が崩れてしまいます。
    何を問題にされているのか把握できません。
    特殊な条件下で行われているのなら、それを教えて下さい。

    キャンセル

  • pythonista

    2019/05/10 01:56

    質問ありがとうございます。<tr>が欠けている部分のスクリーンショットをこの追記欄に乗せれないので、質問欄に載せます。ソースの確認はGooglechromeで対象のページからページのソースを表示により行いました。そこには、遅延情報のテーブルの最初の2行以外、<tr>が見つけられませんでした。コードの実行環境はAnacondaのspyderです。

    キャンセル

回答 3

+2

タグが破損しているならある程度修復して解析してくれるhtml5libを使えばきちんとtableタグを取得できると思います。
それと、以前と全く同じ質問をしているようですがパーサについては調べてみましたか?
パーサについてはドキュメントにも書いてあります。読んでみてください。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

checkベストアンサー

+1

import pandas as pd

url = "https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06"

dfs = pd.read_html(url, flavor="bs4")

len(dfs)

dfs[0]

flavorを変更すればpandasでも読み込めます

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

table取るだけなら下記のような感じでもいけました。。
(どのテーブルを取るか書いてなかったのでtableのみにしています。便箋ご調整していただければと思います。なおJRの遅延情報などのスクレイピングは万が一のことを考えるとオススメできません。)

# pandas読み込み
import pandas as pd

from bs4 import BeautifulSoup

from google.colab import files

import requests

html_doc = requests.get("https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06").text

# BeautifulSoupの初期化
soup = BeautifulSoup(html_doc, 'html.parser') 

tags = soup.find_all("table")

for tag in tags:

 print (tag)  

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.82%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • トップ
  • HTMLに関する質問
  • HTML文字列の</tr>タグの個数を知りたいが、htmlソースに実際に存在する</tr>の個数とプログラムの結果が異なる。