pandasでLength mismatchがでる & 列名が反転

###理想のデータの形
,タイトル,作者
0,あああ,太郎
1,いいい,花子
2,ううう,雄太

###コード

python
1if os.path.exists('./Data/books.csv'):  # 存在するとき。CSVをリストに変換
2    csv_file = pd.read_csv('./Data/books.csv', encoding="utf_8_sig")
3    csv_list = csv_file.values.tolist()  # 行名列名を含まないデータ部分をリストに変換
4else:
5    csv_list = []
6
7csv_list.append([title, author])
8
9df = pd.DataFrame(csv_list)  # 二次元配列をDataFrameに変換。
10df.columns = {'タイトル', '作者'}  # エラーメッセージはここがおかしいと言っています。
11df.drop_duplicates(subset="タイトル", keep="first")  # タイトル重複を削除
12df.to_csv('./Data/books.csv', mode='w', encoding='utf_8_sig')  # 上書き

###エラー

python
1ValueError: Length mismatch: Expected axis has 3 elements, new values have 2 elements

###得られたデータ
,作者,タイトル
0,あああ,太郎
1,いいい,花子
2,ううう,雄太
###環境
Python3.7.4
pandas0.25.1

ご教授お願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

1. エラーが出る原因

CSVデータの読み込み部

Python
1csv_file = pd.read_csv('./Data/books.csv', encoding="utf_8_sig")

にて読み込まれたDataFrame（csv_file）では、本来は "Index" として扱われるべき１列目が "データ" として扱われてしまいます。
その結果作成される DataFrame(df) も [0(元Indexデータ), "タイトル", "作者"] の３列のデータとなってしまいます。
にも関わらず

Python
1df.columns = {'タイトル', '作者'}

の部分にて２列分のColumn名を与えている為 "ValueError"（データは３列あるのに列名は２つしか与えられてないぞゴラー：意訳）が発生しております

対策としては、

Python
1csv_file = pd.read_csv('./Data/books.csv', encoding="utf_8_sig", index_col=0)

のように１列目をIndex列であると明示することで２列のデータとしてよみこまれるかと思います。

2. 順番がおかしくなる原因

と同様にColumn名を与えている

Python
1df.columns = {'タイトル', '作者'}

の部分にて、Column名{'列１の名前', '列２の名前'}を set型で与えておりますが、set型は順番情報を持たない型となりますので、どの列にどの名前が適用されるかの保証がありません。
ここは素直に順番情報を持つList型で

Python
1df.columns = ['タイトル', '作者']

とするべきかと思います。

投稿2019/09/12 07:02

magichan

総合スコア15898

__PORNO___

2019/09/12 08:35

はー！なるほど。助かりました。ありがとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問