Python Pandas 既存csvに新規ローを追加

業務上で必要になっため、素人ながらPythonのPandasなどを使い
データ処理のコーディングやっております。

現在ある生データテーブルをPandasに読み込み、
処理＆整形したあと、以下test.csvとして出力しようとしています。
このときローを識別するキーとして、ID/x/yカラムになります。

test.csv
|ID|x|y|・・・
|DD|5|5|・・・
|EE|5|6|・・・

やりたいことは、例えば初回処理で上記csvデータ出力、
後日新しい生データUPされたら、同じように処理＆整形して、
上記csvに新たなローとしてデータ追加、
このとき追加するローデータと既存csvのローデータに
キーカラムで重複データであれば、追加するローデータで
上書きするということを考えてます。

知識不足もあり、どのようなコードを書けばいいか＆またそもそも上記可能なのかもわからず、
情報少なく大変申し訳ないのですが、ご助言頂ければ幸いです

行動規範の内容に同意します

回答1件

ベストアンサー

dfにインデックス（キー）をつけておくとよいです。
以下のようにdf.loc[key] = valで値をセットすると、キーの重複の有無によって自動的に追加または更新されます。

Python
1import pandas as pd
2from io import StringIO
3
4# テストデータ
5s = """ID,x,y,v1,v2
6A,1,1,10,100
7B,2,2,20,200
8C,3,3,30,300"""
9df = pd.read_csv( StringIO(s), index_col=['ID','x','y'])
10print(df)
11"""
12        v1   v2
13ID x y
14A  1 1  10  100
15B  2 2  20  200
16C  3 3  30  300
17"""
18
19for key, val in [[('D',4,4), (40,400)], # 追加される
20                 [('A',1,1), (11,111)]]:# 更新される
21    print( key, val)
22    df.loc[key] = val
23
24print(df)
25"""
26        v1   v2
27ID x y
28A  1 1  11  111
29B  2 2  20  200
30C  3 3  30  300
31D  4 4  40  400
32"""

###２つのデータフレームを結合

Python
1import pandas as pd
2from io import StringIO
3
4# テストデータ
5s = """ID,x,y,v1,v2
6A,1,1,10,100
7B,2,2,20,200
8C,3,3,30,300"""
9df1 = pd.read_csv( StringIO(s), index_col=['ID','x','y'])
10
11s = """ID,x,y,v1,v2
12D,4,4,40,400
13A,1,1,11,111"""
14df2 = pd.read_csv( StringIO(s), index_col=['ID','x','y'])
15
16df = pd.concat([df1, df2]).groupby(df1.index.names).last()

投稿2020/07/07 06:37

編集2020/07/07 23:23

8524ba23

総合スコア38341

DakeEnoki

2020/07/07 15:06

>cat110様誠にありがとうございます、追加でお聞きしたいのですが以下ご紹介例の追加＆更新したいローがdf0というdf、更新先テーブルが sというdfで格納されてる場合、ご紹介いただいたようなfor文で df0からローを取り出して、locでID/X/YをKeyに df1にローを追加 or 更新するような処理は可能でしょうか？色々試行錯誤してみたのですがうまくいかず。。説明ざっくりで申し訳ありません。ご教授頂ければ幸いです。 df0 ID,x,y,v1,v2 D,4,4,40,400 A,1,1,11,111 s ID x y v1 v2 A 1 1 10 100 B 2 2 20 200 C 3 3 30 300