データフレームにif文、for文を適用させて特定のデータをリスト化したい

前提・実現したいこと

Pandasで、データフレームに対して、if文、for文を適用させて、条件にあったデータを抽出し、リスト化したいです。

###実現したいこと
赤線で引いたように、条件に合ったDay1のデータを抽出したいです。
ー以下条件ー
同じaddress内において、IDが異なった時のDay1を抽出する。

例）address：1番地の12
IDが２→５に変わった時のDay1である、1998-07-01　を抽出したい。

###完成イメージ
上のデータフレームでは、赤線を引いた、
「1998-07-01, 1990-01-01, 1995-04-01, 2000-05-01」を抽出できれば成功です。

それぞれ、同じaddress内で、IDが異なった時のDay1を抽出しています。

発生している問題・エラーメッセージ

  File "<ipython-input-14-e384cf791d5d>", line 9
    list1.append(df["Day1"][k+1])　#[k+1]行目のDay①のデータを、list1に格納する
                                 ^
SyntaxError: invalid character in identifier

該当のソースコード

実際はもっと量の多いデータになっているのですが、ここでは簡単なデータフレームを作成しました。

df = pd.DataFrame([[1,'1990-04-01', '2009-11-01', '1番地の11'],
                 [1,'1990-04-01', '2009-11-01', '1番地の11'],
                 [1,'1990-04-01', '2009-11-01', '1番地の11'],
                 [1,'1990-04-01','', '1番地の11'],
                 [2,'1990-06-01', '1997-11-01', '1番地の12'],
                 [2,'1990-06-01', '1995-11-01', '1番地の12'],
                 [5,'1998-07-01', '', '1番地の12'],
                 [5,'1998-07-01', '', '1番地の12'],
                 [5,'1998-07-01', '', '1番地の12'],
                 [8,'2000-08-01', '', '1番地の18'],
                 [8,'2000-08-01', '', '1番地の18'],
                 [8,'2000-08-01', '', '1番地の18'],
                 [19,'1986-09-01', '1988-10-01', '1番地の25'],
                 [19,'1986-09-01', '1988-10-01', '1番地の25'],
                 [30,'1990-01-01', '1992-11-01', '1番地の25'],
                [30,'1990-01-01', '1992-11-01', '1番地の25'],
                  [45,'1995-04-01', '1998-03-01', '1番地の25'],
                 [45,'1995-04-01', '1998-03-01', '1番地の25'],
                 [60,'2000-05-01', '', '1番地の25']],
                 columns = ['ID','Day1','Day2','address'])
df

list1 = []
for i in df.iterrows():
    for j in df.iterrows():
        for k in df.iterrows():
            if(df["address"][i] == df["address"][i+1]): #addressが前の行と一致する場合下の行へ
                if(df["ID"][j] == df["ID"][j+1]): #IDが前の行と一致する場合下の行へ
                    if(df["ID"][j] != df["ID"][j+1]): #IDが前の行と一致しない場合
                        
                        list1.append(df["Day1"][k+1])　#[k+1]行目のDay①のデータを、list1に格納する
                        
print(list1)

試したこと

if文やfor文を使ってみたり、変数を増やしてみたりしたのですが、全然できませんでした。
初心者で試したことも少ないのですが、よろしくお願いします。

行動規範の内容に同意します

回答2件

groupbyを使えばよいのではないでしょうか。if文・for文でないといけない理由があるなら仕方有りませんが……

python
1df.groupby('address').apply(lambda sdf: sdf.loc[sdf['ID'] != sdf['ID'].shift(), 'Day1'][1:]).tolist()
2# -> ['1998-07-01', '1990-01-01', '1995-04-01', '2000-05-01']
3
4df.groupby('address').apply(lambda sdf: sdf.groupby('ID')['Day1'].first()[1:]).tolist()
5# -> ['1998-07-01', '1990-01-01', '1995-04-01', '2000-05-01']

投稿2021/06/12 07:47

kirara0048

総合スコア1399

takkucook

2021/06/12 10:39

方法に固執していなかったので、助かります。ありがとうございます。

行動規範の内容に同意します

ベストアンサー

こういう場合は、shiftを使うのが簡単です。

python
1>>> df_next = df.shift(1)
2>>> df_select = df[(df['address'] == df_next['address']) & (df['ID'] != df_next['ID'])]
3>>> print(df_select)
4    ID        Day1        Day2 address
56    5  1998-07-01              1番地の12
614  30  1990-01-01  1992-11-01  1番地の25
716  45  1995-04-01  1998-03-01  1番地の25
818  60  2000-05-01              1番地の25

これでできる理由は、df_nextが、dfを一行ずらしたDataFrameだからです。

python
1>>> print(df_next)
2      ID        Day1        Day2 address
30    NaN         NaN         NaN     NaN
41    1.0  1990-04-01  2009-11-01  1番地の11
52    1.0  1990-04-01  2009-11-01  1番地の11
63    1.0  1990-04-01  2009-11-01  1番地の11
74    1.0  1990-04-01              1番地の11
85    2.0  1990-06-01  1997-11-01  1番地の12
96    2.0  1990-06-01  1995-11-01  1番地の12
107    5.0  1998-07-01              1番地の12
118    5.0  1998-07-01              1番地の12
129    5.0  1998-07-01              1番地の12
1310   8.0  2000-08-01              1番地の18
1411   8.0  2000-08-01              1番地の18
1512   8.0  2000-08-01              1番地の18
1613  19.0  1986-09-01  1988-10-01  1番地の25
1714  19.0  1986-09-01  1988-10-01  1番地の25
1815  30.0  1990-01-01  1992-11-01  1番地の25
1916  30.0  1990-01-01  1992-11-01  1番地の25
2017  45.0  1995-04-01  1998-03-01  1番地の25
2118  45.0  1995-04-01  1998-03-01  1番地の25