pandas.DataFrameをcsvから読んだとき、列名が変更されてしまう

発生している問題

現在、DataFrameをcsvに保存し、再度読み出すコードを書いております。
その際、読みだしたDataFrameの列名が元のDataFrameと異なる問題が発生しています。

該当のソースコード

Python
1import csv
2import pandas as pd
3import numpy as np
4df = pd.DataFrame(np.arange(12).reshape(3, 4))
5df.columns = [0 for i in range(len(df.columns))]
6df.to_csv('./df.csv')
7df_read = pd.read_csv('./df.csv',index_col=0)
8print(df)
9print(df_read)

上のソースコードを例にとると、このときdfは

   0  0   0   0
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11

このようになりますが、df_readは

   0  0.1  0.2  0.3
0  0    1    2    3
1  4    5    6    7
2  8    9   10   11

このようになってしまいます。

試したこと

to_csv()メソッドのheaderをTrueにするなどしましたが、解決しません。
申し訳ありませんが、どなたか教えていただければ幸いです。

補足情報（FW/ツールのバージョンなど）

Google Colabratoryで実行しています。

TakaiY

2021/11/20 12:08

列の名前がすべて同じになっているのが原因ですが、列名を同じにしたい理由はあるのでしょうか？

cells_comp

2021/11/20 13:42

現在のところ列名が同じであることが必ずしも必要ではありません。保存と読み出しにより内容が変更されるのが気になったので質問させていただきました。

行動規範の内容に同意します

回答4件

現在のところ列名が同じであることが必ずしも必要ではありません。

保存と読み出しにより内容が変更されるのが気になったので質問させていただきました。

ということですが、処理で

python
1df.columns = [0 for i in range(len(df.columns))]

このように、カラム名にすべて0を指定していますね。

同じでないようにすればいいので、たとえば

python
1df.columns = [i for i in range(len(df.columns))]

のように、カラム名を連番にすれば、保存/読み込みをしたときに元通りになりますよ。

投稿2021/11/20 14:02

TakaiY

総合スコア13842

現時点では pandas.read_csv の mangle_dupe_cols=False の指定は利用できない(Setting mangle_dupe_cols=False is not supported yet と表示される)ので、以下の様にすれば元に戻す事ができますけれども、列名が同じなので特定の列にアクセスする場合には .iloc を使うことになってしまいます。

python
1>>> print(df_read)
2   0  0.1  0.2  0.3
30  0    1    2    3
41  4    5    6    7
52  8    9   10   11
6
7>>> df_read.columns = df_read.columns.str[0].astype(int)
8>>> print(df_read)
9   0  0   0   0
100  0  1   2   3
111  4  5   6   7
122  8  9  10  11
13
14>>> print(df_read[0])
15   0  0   0   0
160  0  1   2   3
171  4  5   6   7
182  8  9  10  11
19
20>>> df_read.iloc[:,0]
210    0
221    4
232    8
24Name: 0, dtype: int64

投稿2021/11/20 13:42

melian

総合スコア20675

同じ列名を持つDataFrameを作ることはお勧めしませんが、どうしてもやりたければ以下のようにやることはできます。

python
1>>> import csv
2>>> import pandas as pd
3>>> import numpy as np
4>>> df = pd.DataFrame(np.arange(12).reshape(3, 4))
5>>> df.columns = [0 for i in range(len(df.columns))]
6>>> df.T.to_csv('./df.csv')
7>>> df_read = pd.read_csv('./df.csv',index_col=0).T
8>>> print(df)
9   0  0   0   0
100  0  1   2   3
111  4  5   6   7
122  8  9  10  11
13>>> print(df_read)
14   0  0   0   0
150  0  1   2   3
161  4  5   6   7
172  8  9  10  11