Python - For Loop で取得したデータを全てExcelへと引き抜きたい

前提・実現したいこと

For Loop で取得したデータを全てExcelへと引き抜きたい。

発生している問題・エラーメッセージ

あるサイトにテーブルがいくつかあるので、それをFor Loopで取得することまでできましたが、最後のループのデータしか引き抜く事ができません。どこが間違っている、もしくは足りないのでしょうか？宜しくお願い致します。

Python
1import pandas as pd
2
3filename = r"\server\pc\user\username\desktop\test.xlsx"
4path = open(filename, 'r')
5destination = r"\server\pc\user\username\desktop\Scrap.xlsx"
6
7df = pd.io.html.read_html(filename, encoding='Shift JIS', attrs={'class': 'list2'})
8
9num_tables = (len(df))
10
11for i in range(0, num_tables):
12
13    dfi = df[i]
14 
15writer = pd.ExcelWriter(destination, engine='xlsxwriter')
16dfi.to_excel(writer, index=False, sheet_name='Test')
17
18workbook = writer.book
19worksheet = writer.sheets['Test']
20
21writer.save()

行動規範の内容に同意します

回答1件

各テーブルの形が同じなのであれば、とくにループを使わずともread_htmlした結果をconcatすればいけるかと思います。

Python
1import pandas as pd
2from io import StringIO
3
4# テストデータ
5fmt = '<table><tr><th>col</th></tr><tr><td>{}</td></tr><tr><td>{}</td></tr></table>'
6html = ''.join([fmt.format(i,i*10) for i in range(3)])
7
8dfs = pd.read_html(StringIO(html)) # 読込
9df = pd.concat(dfs).reset_index(drop=True) # 行方向に結合
10df.to_excel('ret.xlsx', index=False, sheet_name='Test') # 書き出し

投稿2020/02/13 14:07

8524ba23

総合スコア38341

SnowBallEffect

2020/02/18 04:36

返信ありがとうございます。テーブルの形は同じなのですが、read_htmlだと一つのテーブルしか確保できないようなので、ループを使わないといけないみたいです。can110さんがおっしゃてたやり方をトライしてもうまくいきませんでした。私の方で少しコマンド変えてみました。 writer = pd.ExcelWriter(destination, engine='xlsxwriter') result = [] for i in range(0, num_tables): dfi = df[i] result.append(dfi) 　 dfi.to_excel(writer, index=False, sheet_name='Test') workbook = writer.book worksheet = writer.sheets['Test'] テーブルは時によって４つだったり３つだったりします。最後のテーブルは必ずExcelにexportできますが、他のテーブルはいくつかrowがなくなったりします。 dfi = df[0]とかintegerを入れると必ず全てのテーブルを入手できますが、ループになるとだめになるみたいです。。　他にいい方法ご存じでしょうか。。。？