質問編集履歴
1
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,35 +1,3 @@
|
|
1
|
-
### 前提・実現したいこと
|
2
|
-
|
3
|
-
スクレイピングによってweb上のテーブルタグから情報を抜き出し、CSVファイルを得たい。
|
4
|
-
|
5
|
-
### 発生している問題・エラーメッセージ
|
6
|
-
|
7
|
-
スクレイピングしたいページ
|
8
|
-
|
9
|
-
https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06
|
10
|
-
|
11
|
-
|
12
|
-
|
13
|
-
ここから<table>で書かれた遅延情報を抜き出したいが、ヘッダーの次の日付までは<tr> </tr>で行が形成されているが、次の行から、終了タグ</tr>だけで区切られており、Beautifulsoup4のfind_all('tr')でタグを回収できない。
|
14
|
-
|
15
|
-
この場合、この形式のテーブルからどうCSVファイルを抜き出すのかがわからない。
|
16
|
-
|
17
|
-
|
18
|
-
|
19
|
-
|
20
|
-
|
21
|
-
### 該当のソースコード
|
22
|
-
|
23
|
-
|
24
|
-
|
25
|
-
```python3.7
|
26
|
-
|
27
|
-
ソースコード
|
28
|
-
|
29
|
-
```
|
30
|
-
|
31
|
-
|
32
|
-
|
33
1
|
### 前提・実現したいこと
|
34
2
|
|
35
3
|
スクレイピングによってweb上のテーブルタグから情報を抜き出し、CSVファイルを得たい。
|
@@ -68,16 +36,12 @@
|
|
68
36
|
|
69
37
|
|
70
38
|
|
71
|
-
# URLの指定
|
72
|
-
|
73
39
|
html = urlopen("https://traininfo.jreast.co.jp/delay_certificate/history.aspx?R=06")
|
74
40
|
|
75
41
|
bsobj = BeautifulSoup(html, "lxml")
|
76
42
|
|
77
43
|
|
78
44
|
|
79
|
-
# テーブルを指定
|
80
|
-
|
81
45
|
table = bsobj.find_all("table")
|
82
46
|
|
83
47
|
rows = table[0].find_all("tr")
|