ValueError 「cannot reindex on an axis with duplicate labels」が解決出来ない

Question

### 実現したいこと
Python初心者です。よろしくお願いいたします。

pythonのデータフレームの操作で条件に該当する値がある時に新しいcolumnを
作成して計算結果を入れたいがエラーが出て実行できないです。

### 発生している問題・分からないこと
実行するとValue Error「cannot reindex on an axis with duplicate labels」が発生します。

### エラーメッセージ
```error
cannot reindex on an axis with duplicate labels
```

### 該当のソースコード

```
#df
　　　品名	　　購入数量	　　YM	　　　Y	　M　
0	商品１	48.0	　　　2024年01月	2024	　01
1	商品２	520.0	2024年02月	2024	　02
2	商品３	0.0	　　　2024年03月	2024	　03
3	商品４	0.0	　　　2024年05月	2024	　05
4	商品５	0.0	　　　2024年06月	2024	　06

#Mが01、02、03の時に新しいColumn　fin_Y にYから１を引いた数値を入れたいです。
df_x = df
last_f_year = ["01","02","03"]
fin_cond = df_x["M"].isin(last_f_year)
df_x.loc[fin_cond,"fin_Y"] = df_x["Y"] - 1 #ここでエラーになります

#欲しい結果
　　　品名	　　購入数量	　　YM	　　　Y	　M　　fin_Y
0	商品１	48.0	　　　2024年01月	2024	　01  　2023
1	商品２	520.0	2024年02月	2024	　02  　2023
2	商品３	0.0	　　　2024年03月	2024	　03  　2023
3	商品４	0.0	　　　2024年05月	2024	　05
4	商品５	0.0	　　　2024年06月	2024	　06
```

### 試したこと・調べたこと
- [x] teratailやGoogle等で検索した
- [x] ソースコードを自分なりに変更した
- [ ] 知人に聞いた
- [ ] その他

##### 上記の詳細・結果
変数fin_condにはBool値が入っていますし、条件を与えずにColumnを追加して
値の追加も出来ますが、locで条件を与えるとエラーになります。
（df_x["fin_Y"] = df_x["Y"] - 1　は普通に実行できます）

### 補足
初歩的な質問で申し訳ありませんが、よろしくお願いいたします。

Accepted Answer

```python
df_x.loc[fin_cond,"fin_Y"] = df_x["Y"] - 1
```

左辺と右辺の長さ(インデックス)が不一致なのが原因です。
インデックスが不一致の場合、中で `reindex` してインデックスを一致させてから代入する処理をしますが、元のインデックスに重複する要素があってreindexできないというエラーです。

下記のようにして、長さ(インデックス)をそろえてやれば動くと思います。
```python
df_x.loc[fin_cond,"fin_Y"] = df_x.loc[fin_cond, "Y"] - 1
```

質問の例で挙げられているもののようにインデックスが重複していない場合は、エラーが出ないはずです。
インデックスが重複するケースとしては`pd.concat`したものとかが考えられますが、その場合は `pd.concat(..., ignore_index=True)` か `df_x = df_x.reset_index(drop=True)` するのがいいかもしれません。

Answer

既に解決済みなので，御参考です。

> 変数 fin_cond には Bool 値が入っていますし、条件を与えずに Column を追加して
> 値の追加も出来ますが、loc で条件を与えるとエラーになります。
> （df_x["fin_Y"] = df_x["Y"] - 1 は普通に実行できます）

ということなので，`loc` を用いない記述例を考えてみました。

```Python
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)

df = pd.DataFrame({'品名': ['商品1', '商品2', '商品3', '商品4', '商品5'],
                   '購入数量': [48.0, 520.0, 0.0, 0.0, 0.0],
                   'YM': ['2024年01月', '2024年02月', '2024年03月',
                          '2024年05月', '2024年06月'],
                   'Y': ['2024', '2024', '2024', '2024', '2024'],
                   'M': ['01', '02', '03', '05', '06']})
df_x = df.copy()

last_f_year = ['01', '02', '03']
fin_cond = df_x['M'].isin(last_f_year)
df_x['fin_Y'] = [str(int(y) - 1) if fc else '' for y, fc
                 in zip(df_x['Y'], fin_cond)]

print(df_x)
#     品名  購入数量          YM     Y   M fin_Y
# 0  商品1      48.0  2024年01月  2024  01  2023
# 1  商品2     520.0  2024年02月  2024  02  2023
# 2  商品3       0.0  2024年03月  2024  03  2023
# 3  商品4       0.0  2024年05月  2024  05
# 4  商品5       0.0  2024年06月  2024  06
```

また，[apply() メソッド](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html) を `axis=1` とともに用いると，条件も含めて下記のように記述することもできます。

```Python
df_x['fin_Y'] = df_x.apply(
    lambda r: str(int(r['Y']) - 1) if r['M'] in ['01', '02', '03']
    else '', axis=1)
```

実現したいこと

発生している問題・分からないこと

エラーメッセージ

該当のソースコード

試したこと・調べたこと

上記の詳細・結果

補足

関連した質問