質問編集履歴

3

誤字

2019/05/09 17:12

投稿

pythonista
pythonista

スコア21

test CHANGED
File without changes
test CHANGED
@@ -1,4 +1,4 @@
1
- ##![イメージ説明](b791bd3ab4fb8ac3f99e88842d5a8466.png)現したいこと
1
+ ##現したいこと
2
2
 
3
3
   JR東日本の中央本線の遅延情報をスクレイピングしたい。
4
4
 

2

画像の追加

2019/05/09 17:12

投稿

pythonista
pythonista

スコア21

test CHANGED
File without changes
test CHANGED
@@ -1,4 +1,4 @@
1
- ### 前提・実現したいこと
1
+ ##![イメージ説明](b791bd3ab4fb8ac3f99e88842d5a8466.png)現したいこと
2
2
 
3
3
   JR東日本の中央本線の遅延情報をスクレイピングしたい。
4
4
 
@@ -19,6 +19,14 @@
19
19
  JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
20
20
 
21
21
  どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
22
+
23
+
24
+
25
+ ![イメージ説明](c2956e864701ad6f43cee6bd067c14af.png)
26
+
27
+ 5月1日のデータです。
28
+
29
+ </tr>のタグのみで、開始タグが見当たりません。
22
30
 
23
31
  ### 該当のソースコード
24
32
 

1

誤字

2019/05/09 17:10

投稿

pythonista
pythonista

スコア21

test CHANGED
File without changes
test CHANGED
@@ -1,16 +1,30 @@
1
1
  ### 前提・実現したいこと
2
2
 
3
-  スクレイピングて得HTMLソースコードを
3
+  JR東日本の中央本線の遅延情報をスクレイピングしたい。
4
+
5
+ 遅延情報はhtmlの<table>属性で書かれているため、それをスクレイピングしてCSVファイルにしたいが、タグが破損しているため、Pandasのhtml_read()を使えず、BeautifulSoup4でCSVファイル化しようにも、テーブルの要素をすべて取得できないためかなわず。
6
+
7
+ そこで、自力でhtmlファイルを修復するプログラムを考えている。
8
+
9
+ 具体的には、<tr>---</tr>が終了タグ</tr>しかないため</tr>の後ろに<tr>をつけて、しっかりテーブルの行要素をタグで囲ってBeautifulSoup4で取得できるようにしたい。
10
+
11
+
4
12
 
5
13
  ### 発生している問題・エラーメッセージ
6
14
 
15
+  まず最初に、htmlソースコードを文字列化して、</tr>のインデックスを確かめたい
7
16
 
17
+ そのために、</tr>が文字列中に何回登場するかを計算した。
18
+
19
+ JR東日本は過去45日分の遅延情報を載せているが、プログラムコード結果は2回であった。
20
+
21
+ どこがおかしいのか、また、このような原因を自力で発掘するアイデア等があればぜひ教えていただきたいです。初心者の質問であるため、不勉強や説明不足等があれば申し訳ありません。
8
22
 
9
23
  ### 該当のソースコード
10
24
 
11
25
 
12
26
 
13
- ```ここに言語名を入力
27
+ ```Python
14
28
 
15
29
  from bs4 import BeautifulSoup
16
30
 
@@ -51,19 +65,3 @@
51
65
  print(cnt)
52
66
 
53
67
  ```
54
-
55
-
56
-
57
- ### 試したこと
58
-
59
-
60
-
61
- ここに問題に対して試したことを記載してください。
62
-
63
-
64
-
65
- ### 補足情報(FW/ツールのバージョンなど)
66
-
67
-
68
-
69
- ここにより詳細な情報を記載してください。