質問編集履歴
3
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
##
|
1
|
+
##実現したいこと
|
2
2
|
|
3
3
|
JR東日本の中央本線の遅延情報をスクレイピングしたい。
|
4
4
|
|
2
画像の追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
##
|
1
|
+
##![イメージ説明](b791bd3ab4fb8ac3f99e88842d5a8466.png)現したいこと
|
2
2
|
|
3
3
|
JR東日本の中央本線の遅延情報をスクレイピングしたい。
|
4
4
|
|
@@ -19,6 +19,14 @@
|
|
19
19
|
JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
|
20
20
|
|
21
21
|
どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
|
22
|
+
|
23
|
+
|
24
|
+
|
25
|
+
![イメージ説明](c2956e864701ad6f43cee6bd067c14af.png)
|
26
|
+
|
27
|
+
5月1日のデータです。
|
28
|
+
|
29
|
+
</tr>のタグのみで、開始タグが見当たりません。
|
22
30
|
|
23
31
|
### 該当のソースコード
|
24
32
|
|
1
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,16 +1,30 @@
|
|
1
1
|
### 前提・実現したいこと
|
2
2
|
|
3
|
-
スクレイピング
|
3
|
+
JR東日本の中央本線の遅延情報をスクレイピングしたい。
|
4
|
+
|
5
|
+
遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
|
6
|
+
|
7
|
+
そこで、自力でhtmlファイルを修復するプログラムを考えている。
|
8
|
+
|
9
|
+
具体的には、<tr>---</tr>が終了タグ</tr>しかないため</tr>の後ろに<tr>をつけて、しっかりテーブルの行要素をタグで囲ってBeautifulSoup4で取得できるようにしたい。
|
10
|
+
|
11
|
+
|
4
12
|
|
5
13
|
### 発生している問題・エラーメッセージ
|
6
14
|
|
15
|
+
まず最初に、htmlソースコードを文字列化して、</tr>のインデックスを確かめたい
|
7
16
|
|
17
|
+
そのために、</tr>が文字列中に何回登場するかを計算した。
|
18
|
+
|
19
|
+
JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
|
20
|
+
|
21
|
+
どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
|
8
22
|
|
9
23
|
### 該当のソースコード
|
10
24
|
|
11
25
|
|
12
26
|
|
13
|
-
```
|
27
|
+
```Python
|
14
28
|
|
15
29
|
from bs4 import BeautifulSoup
|
16
30
|
|
@@ -51,19 +65,3 @@
|
|
51
65
|
print(cnt)
|
52
66
|
|
53
67
|
```
|
54
|
-
|
55
|
-
|
56
|
-
|
57
|
-
### 試したこと
|
58
|
-
|
59
|
-
|
60
|
-
|
61
|
-
ここに問題に対して試したことを記載してください。
|
62
|
-
|
63
|
-
|
64
|
-
|
65
|
-
### 補足情報(FW/ツールのバージョンなど)
|
66
|
-
|
67
|
-
|
68
|
-
|
69
|
-
ここにより詳細な情報を記載してください。
|