pythonのkeyerrorの原因を教えてください。
受付中
回答 0
投稿
- 評価
- クリップ 0
- VIEW 1,445
前提・実現したいこと
pythonでデータフレームを使っていると以下のようなkeyerrorが出ます。
ダミー化をしたことでエラーが出たと思われます。原因を教えてください。
データフレームの中身はすべて数値です。
for文中ではKmeansでクラスタリングしたものをダミー化しています。
発生している問題・エラーメッセージ
Traceback (most recent call last):
File "C:\ex.py", line 65, in <module>
print(df2[column_name].value_counts()[1], column_name)
File "C:\Python37\site-packages\pandas\core\series.py", line 1064, in __getitem__
result = self.index.get_value(self, key)
File "C:\Python37\site-packages\pandas\core\indexes\base.py", line 4723, in get_value
return self._engine.get_value(s, k, tz=getattr(series.dtype, "tz", None))
File "pandas\_libs\index.pyx", line 80, in pandas._libs.index.IndexEngine.get_value
File "pandas\_libs\index.pyx", line 88, in pandas._libs.index.IndexEngine.get_value
File "pandas\_libs\index.pyx", line 131, in pandas._libs.index.IndexEngine.get_loc
File "pandas\_libs\hashtable_class_helper.pxi", line 690, in pandas._libs.hashtable.UInt64HashTable.get_item
File "pandas\_libs\hashtable_class_helper.pxi", line 696, in pandas._libs.hashtable.UInt64HashTable.get_item
KeyError: 1
該当のソースコード
df = pd.read_csv('???.csv', sep = ',')
for column_name in df:
cust_array = np.array([df[column_name].tolist()],np.int32) #Kmeansでクラスタリング
cust_array = cust_array.T
if df[column_name].nunique() < 4:
pred = KMeans(n_clusters=df[column_name].nunique()).fit_predict(cust_array)
else:
pred = KMeans(n_clusters=4).fit_predict(cust_array)
df[column_name]=pred
if column_name != 'AAA' : #AAA列以外をダミー化
df_dummy = pd.get_dummies(df[column_name],prefix=column_name,prefix_sep='_')
df = pd.concat([df.drop([column_name],axis=1),df_dummy],axis=1)
df.set_index('AAA', inplace=True) #AAA列をインデックスにする
df2=df[df.index == 1].copy() #インデックスが1の行を取り出す
for column_name in df2: #各列の1の個数を出力
print(df2[column_name].value_counts()[1])
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
まだ回答がついていません
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.18%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正の依頼
meg_
2019/11/09 13:50
df2[column_name].value_counts()の中に1は存在しているのですか?
akasaakasa
2019/11/09 13:57
はい、存在しています。
printも数回は実行されるのですが、df2の全ての列の処理が終わる前にエラーがでて途中で止まってしまうという状況です。
meg_
2019/11/09 14:01
エラーが発生する列にそのキー「1」が存在しないのだと思います。
akasaakasa
2019/11/09 14:13
私もそう思って、df2[column_name].value_counts(ascending=True)で確認したのですが、1がない列はありませんでした。
akasaakasa
2019/11/09 14:19
それでもやはり1が存在しないかもしれません。
dfはKmeansでクラスタリングでしてダミー化したものなので、その可能性はあります。
ちなみに1が存在しないときは上記のエラーがでるのですか?
meg_
2019/11/09 14:32
df2[column_name].value_counts()の戻り値はSeriesなので、そのindexに「1」がないとキーエラーが発生します。
上記で「1がない列はありません」というのはdf2[column_name].value_counts().indexの中に「1」があったという認識で間違いないでしょうか?
akasaakasa
2019/11/09 14:40
すいません、それは私の間違いです。
おそらく1がない列があったと思われます。
クラスタリングにより実行ごとに各列の1の個数は多少変化するため、1がない時もあります。
tanishi_a
2019/11/09 22:36 編集
再現する CSV ファイルを質問文に載せたほうが早いのでは。