質問するログイン新規登録

質問編集履歴

3

誤字

2019/05/09 17:12

投稿

pythonista
pythonista

スコア21

title CHANGED
File without changes
body CHANGED
@@ -1,4 +1,4 @@
1
- ##![イメージ説明](b791bd3ab4fb8ac3f99e88842d5a8466.png)現したいこと
1
+ ##現したいこと
2
2
   JR東日本の中央本線の遅延情報をスクレイピングしたい。
3
3
  遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
4
4
  そこで、自力でhtmlファイルを修復するプログラムを考えている。

2

画像の追加

2019/05/09 17:12

投稿

pythonista
pythonista

スコア21

title CHANGED
File without changes
body CHANGED
@@ -1,4 +1,4 @@
1
- ### 前提・実現したいこと
1
+ ##![イメージ説明](b791bd3ab4fb8ac3f99e88842d5a8466.png)現したいこと
2
2
   JR東日本の中央本線の遅延情報をスクレイピングしたい。
3
3
  遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
4
4
  そこで、自力でhtmlファイルを修復するプログラムを考えている。
@@ -9,6 +9,10 @@
9
9
  そのために、</tr>が文字列中に何回登場するかを計算した。
10
10
  JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
11
11
  どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
12
+
13
+ ![イメージ説明](c2956e864701ad6f43cee6bd067c14af.png)
14
+ 5月1日のデータです。
15
+ </tr>のタグのみで、開始タグが見当たりません。
12
16
  ### 該当のソースコード
13
17
 
14
18
  ```Python

1

誤字

2019/05/09 17:10

投稿

pythonista
pythonista

スコア21

title CHANGED
File without changes
body CHANGED
@@ -1,10 +1,17 @@
1
1
  ### 前提・実現したいこと
2
-  スクレイピングて得HTMLソースコードを
2
+  JR東日本の中央本線の遅延情報をスクレイピングしたい。
3
+ 遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
4
+ そこで、自力でhtmlファイルを修復するプログラムを考えている。
5
+ 具体的には、<tr>---</tr>が終了タグ</tr>しかないため</tr>の後ろに<tr>をつけて、しっかりテーブルの行要素をタグで囲ってBeautifulSoup4で取得できるようにしたい。
6
+
3
7
  ### 発生している問題・エラーメッセージ
4
-
8
+  まず最初に、htmlソースコードを文字列化して、</tr>のインデックスを確かめたい
9
+ そのために、</tr>が文字列中に何回登場するかを計算した。
10
+ JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
11
+ どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
5
12
  ### 該当のソースコード
6
13
 
7
- ```ここに言語名を入力
14
+ ```Python
8
15
  from bs4 import BeautifulSoup
9
16
  from urllib.request import urlopen
10
17
 
@@ -24,12 +31,4 @@
24
31
 
25
32
  #実行部
26
33
  print(cnt)
27
- ```
34
+ ```
28
-
29
- ### 試したこと
30
-
31
- ここに問題に対して試したことを記載してください。
32
-
33
- ### 補足情報(FW/ツールのバージョンなど)
34
-
35
- ここにより詳細な情報を記載してください。