Pandas DataFrameのcolumn名を変更できない

エクセルからデータをDataFrameとして読み込み、読み込んだデータの2行目を列名にしようとしています。
ただ、デバッガで以下で回すと、なぜかdata_list[i].columns = _columnを実行した段階で、空のDataFrameになってしまいます。

ちなみに、画像のデータはdata_list[i].columns = _columnを実行する直前のデータであり、そもそもデータが読み込めていない、という訳ではないと思います。

Python
1import glob
2import pandas as pd
3
4files = glob.glob("Data/*.xlsx")
5
6data_list = []
7for i, file in enumerate(files):
8    data_list.append(pd.read_excel(file))
9    _column = data_list[i].iloc[1, :].fillna(0).values
10    data_list[i].columns = _column

なお、PyCharm上で実行してもエラーは出ません。
上記スクリプトの後にprint(data_list[0])を実行すると、列名含めて問題ないようなデータが表示されるのですが、data_list[0].describe()を実行すると、countは0でそれ以外全てNaNのデータになります。また、data_list[0].shapeは(249, 14)であり、どうも現象が理解できません。

行動規範の内容に同意します

回答1件

python
1print(data_list[0])
2print(data_list.columns)
3print(data_list.describe())

あたりの結果を見せていただいて、意図通りの結果になっているかどうかチェックしないことにはなんとも言えないと思います。

_column = data_list[i].iloc[1, :].fillna(0).valuesが処理として間違っている可能性があるか、そもそもdescribeで値が取れるようなデータの型になっているのかというあたりが問題になりそうです。

投稿2019/02/23 11:06

hayataka2049

総合スコア30933

MagMag

2019/02/23 23:06 編集

おっしゃるとおり、_columnの処理がどこかうまくいっていないのでしょうが、原因や切り分け方法がわかりません。 data_list[0].columnsは Index([ 'DATE', ' TIME', 'time', ' TEMP', ' PH', ' DO', ' AGIT', ' AIR',0, 'time', ' PH', ' DO', ' AGIT', ' AIR'],dtype='object') の結果を返します。また、.describe()では名称"0"の1列しか表示されません（meanなどの値はNaN）。おそらく、fillna(0)によって名称を上書きした部分だけ.describe()で計算されるようです。また、中のデータは問題ないと思っています。というのは、便宜上、今はdata_list.append(pd.read_excel(file, header=2))として、対処療法的に対応していますが、この場合、data_list[0]は Index(['DATE', ' TIME', 'time', ' TEMP', ' PH', ' DO', ' AGIT', ' AIR','Unnamed: 8', 'time.1', ' PH.1', ' DO.1', ' AGIT.1', ' AIR.1'],dtype='object') となり、describe()も全ての変数で問題なく表示されます。読みにくくてすみません。