python3にてpandasを用いた処理で、drop_duplicates()による重複削除処理がうまくいかない

▼詳細
下のようなデータが入っているcsvファイルにおいて、【都道府県】列において重複がある場合に行を削除するコードを書きたいです。
drop_duplicates()を用いて重複削除が可能と情報を得たため下のコードを実行したところ、うまく重複を削除することができませんでした、、、
※csvファイルはうまく読み込めております。

  都道府県 名前    年齢 性別
0   大阪  a     1  m
1   大阪  b    11  f
2   兵庫  c   111  f
3   兵庫  d    11  m
4   東京  e     1  m
5   東京  f  1111  f
6   東京  f   111  f

▼コード

import pandas as pd
df_test = pd.read_csv('C:\Users\user1\test.csv', encoding='shift-jis')
print(df_test, "\n")

df_test.drop_duplicates(subset=['都道府県'])
print(df_test)

  都道府県 名前    年齢 性別
0   大阪  a     1  m
1   大阪  b    11  f
2   兵庫  c   111  f
3   兵庫  d    11  m
4   東京  e     1  m
5   東京  f  1111  f
6   東京  f   111  f 

  都道府県 名前    年齢 性別
0   大阪  a     1  m
1   大阪  b    11  f
2   兵庫  c   111  f
3   兵庫  d    11  m
4   東京  e     1  m
5   東京  f  1111  f
6   東京  f   111  f

いくつかの記事を読んだところ、上記の方法で処理できるとありましたがうまくいきません、、、

引き続き調査いたしますが、アドバイスいただけると幸いです、、、涙

行動規範の内容に同意します

回答1件

ベストアンサー

df_test.drop_duplicates(subset=['都道府県'])

では、df_testは変更されません。

df_test.drop_duplicates(subset=['都道府県'], inplace=True)

に変更すれば正しく表示されませす。

投稿2021/05/11 13:47

ppaul

総合スコア24672

akawo

2021/05/11 14:02

回答ありがとうございます！ご指摘いただいた通り、inplace=Trueを付け加えると重複処理されました、、、涙 ※ネット上の記事では、inplace=Trueは書かれていないものが多かったです、、、 https://create-it-myself.com/know-how/howto-get-unique-dataframe/ https://www.delftstack.com/ja/howto/python-pandas/drop-duplicates-pandas/ https://qiita.com/yuta-38/items/dc0882cfb5bffb79ffea#drop_duplicates

kirara0048

2021/05/12 01:40

例えば、「 a = 3 」のあとに「 a - 2 」を実行しても、`a`は1にはなりませんよね。 inplaceオプションを使用しない通常の`df_test.drop_duplicates()`は、新しいデータフレームを返します。したがって、例えば「 b = a - 2 」とすると「 a - 2 」の計算結果である1が`b`に代入されるのと同じように、「 new_df = df_test.drop_duplicates() 」のようにして新しい変数に代入してあげる必要があります。対して、inplaceオプションを使用した「 df_test.drop_duplicates(inplace=True) 」は、実行するだけでdf_testそのものを新しいデータフレームで更新します。つまり「 df_test = df_test.drop_duplicates() 」を実行したときと同じ結果になります。

akawo

2021/05/12 14:02

kirara0048様ご説明ありがとうございます！クリアになりました。。計算だけ頭でして、出力していなかったというイメージですね、、、勉強になります！

行動規範の内容に同意します