質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

7417閲覧

ValueError: cannot reindex from a duplicate axis

i113

総合スコア74

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/08/20 18:05

下のようなデータフレームがあり、v_df の b_df でFalseになっている列・行に一致する要素をNaNにしたいです。

python

1print(v_df) 2col c1 c2 c1 c3 c2 3r1 15 20 3 9 16 4r2 7 13 1 0 22 5r3 3 2 10 33 4 6r4 28 7 11 5 19 7 8print(b_df) 9col c1 c2 c3 10r1 True False True 11r2 True True True 12r3 True False False 13r4 False True True 14 15     ↓ 16 17col c1 c2 c1 c3 c2 18r1 15 NaN 3 9 NaN 19r2 7 13 1 0 22 20r3 3 NaN 10 NaN NaN 21r4 NaN 7 NaN 5 19

そこで次のようにしたのですが、エラーが出てしまいます。

python

1v_df2 = v_df[b_df] 2 3ValueError: cannot reindex from a duplicate axis

v_dfの列名にダブりがあるから駄目だというのは想像がつくのですが、どうしたら良いか分かりません。
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2021/08/21 00:08

v_dfとb_dfの型は何でしょうか?
guest

回答2

0

カラム名が重複している場合は、列方向に繰り返さないと無理でしょう。
以下は、列方向の繰り返しの一例です。

python

1>>> print(v_df) 2 col c1 c2 c1 c3 c2 30 r1 15 20 3 9 16 41 r2 7 13 1 0 22 52 r3 3 2 10 33 4 63 r4 28 7 11 5 19 7>>> print(b_df) 8 col c1 c2 c3 90 r1 True False True 101 r2 True True True 112 r3 True False False 123 r4 False True True 13>>> 14>>> result_df = v_df.copy() 15>>> for i in range(1, len(result_df.columns)): 16... result_df.iloc[:,i] = result_df.iloc[:,i].where(b_df[result_df.columns[i]]) 17... 18>>> print(result_df) 19 col c1 c2 c1 c3 c2 200 r1 15.0 NaN 3.0 9.0 NaN 211 r2 7.0 13.0 1.0 0.0 22.0 222 r3 3.0 NaN 10.0 NaN NaN 233 r4 NaN 7.0 NaN 5.0 19.0

投稿2021/08/21 04:07

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

i113

2021/08/21 10:05

どうもありがとうございます。
guest

0

ベストアンサー

カラムを揃えてやれば望みのデータが取り出せそうです。

python

1# 2v_df2 = v_df[b_df[v_df.columns]]

カラム名が重複していると色々面倒なことがあるので、重複をなくす方法を考える方がいいとは思います。

追記

私の環境では下記コードでちゃんと動作しています。
dtypeとか、index, columnsがあっているか確認してみてください。

python

1import pandas as pd 2 3b_df = pd.DataFrame( 4 {'c1': [True, True, True, False], 5 'c2': [False, True, False, True], 6 'c3': [True, True, False, True]}, 7 index=['r1', 'r2', 'r3', 'r4']) 8 9v_df = pd.DataFrame( 10 [[15,20, 3, 9, 16], 11 [7, 13, 1, 0, 22], 12 [3, 2, 10, 33, 4], 13 [28, 7, 11, 5, 19]], 14 index=['r1', 'r2', 'r3', 'r4'], 15 columns=['c1', 'c2', 'c1', 'c3', 'c2']) 16 17print(v_df[b_df[v_df.columns]]) 18# c1 c2 c1 c3 c2 19#r1 15.0 NaN 3.0 9.0 NaN 20#r2 7.0 13.0 1.0 0.0 22.0 21#r3 3.0 NaN 10.0 NaN NaN 22#r4 NaN 7.0 NaN 5.0 19.0

投稿2021/08/21 01:39

編集2021/08/21 06:56
bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

i113

2021/08/21 05:43

ご回答、どうもありがとうございます。 残念ながら、すべての値がNaNになってしまいました。
i113

2021/08/21 10:05

上手くいきました。 行名に齟齬がありました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問