Python Pandas 毎回列数の違うCSVを取り込んで固定の列数で尚且つ列名を修正して書き出したい。

こんにちは。
Python Pandas 毎回列数の違うCSVを取り込んで固定の列数で尚且つ列名を修正して書き出したいと考えています。

1.csv

品名,A,B,C,D,E,
りんご,12,30,20,30,,
みかん,18,40,28,30,10,
りんご,12,30,20,30,,
ぶどう,55,30,20,62,,

のようなCSVがあり、

pandasで読み込んで、列名を

df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E']

とすると

品名,店名A,店名B,店名C,店名D,店名E
りんご,30,20,30,NaN,NaN,
みかん,18,40,28,30,10,
ぶどう,30,20,30,NaN,NaN,
バナナ,30,20,62,NaN,NaN,

という風に返ってきます。

しかし元のCSVが、

別の列数が少ない1.csv

品名,A,B,C
りんご,30,20,30
みかん,18,40,28
ぶどう,30,20,30
バナナ,30,20,62

だと、

df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E']

とすると

ValueError: Length mismatch: Expected axis has 4 elements, new values have 6 elements

で返ってきます。

本来4列のデータなのに6列で指定しているからエラーですよと言っているのはなんとなく解るのですが、
取り込みたいCSVの列が毎回一定列数ではなく、なおかつ出力は'品名','店名A', '店名B', '店名C', '店名D', '店名E'のように

品名,店名A,店名B,店名C,店名D,店名E
りんご,30,20,30,NaN,NaN,
みかん,18,40,28,NaN,NaN,
ぶどう,30,20,30,NaN,NaN,
バナナ,30,20,62,NaN,NaN,

の6列で固定したいのですが、df['店名D','店名E']などで列を2つ増やすとしても3列の場合もあれば2列の場合もありそうすると結局Length mismatch:のエラーになってしまうのでその考え方は的外れなのはわかります…
こういった場合どのようにすればいいのでしょうか？

よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

足りない列を追加してから列名を設定しましょう。

python
1>>> import pandas as pd
2>>> import io
3>>>
4>>> indata = '''品名,A,B,C
5... りんご,30,20,30
6... みかん,18,40,28
7... ぶどう,30,20,30
8... バナナ,30,20,62'''
9>>> with io.StringIO(indata) as f:
10...     df = pd.read_csv(f)
11...
12>>> print(df)
13    品名   A   B   C
140  りんご  30  20  30
151  みかん  18  40  28
162  ぶどう  30  20  30
173  バナナ  30  20  62
18>>> column_max = 6
19>>> for i in range(column_max - df.shape[1]):
20...     df[i] = float('NaN')
21...
22>>> df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E']
23>>> print(df)
24    品名  店名A  店名B  店名C  店名D  店名E
250  りんご   30   20   30  NaN  NaN
261  みかん   18   40   28  NaN  NaN
272  ぶどう   30   20   30  NaN  NaN
283  バナナ   30   20   62  NaN  NaN

投稿2021/05/13 23:41

ppaul

総合スコア24666

eqeqe

2021/05/13 23:59 編集

すごい！できました! column_max = 6 で最大列6列にして column_max - df.shape[1]　でMAXまで[1]列を追加して値もfloat型で実数に指定するということなのでしょうか？いろいろな使い方があるのですね、勉強になります。ありがとうございました！

ppaul

2021/05/14 03:57

float('NaN')としている理由は、ppandasのDataFrameの欠損値がfloat('NaN')だからです。 NaNは「数じゃないよ(Not a Number)」の略で「非数」とか呼ばれています。

eqeqe

2021/05/14 05:02

ありがとうございます！いまいちNaNの扱いもあやふやなので非数で一度検索して熟読してみます。あといただいたコメントで恐縮なのですが、実は朝ご回答いただいたこの質問なのですが、質問の通りだとうまくいくのですが、応用してみようと思って df.groupbyを使ってソートした結果を同じように列を増やそうと思っても頂いたコードがスルーされてしまうのか例によってValueError: Length mismatch: Expected axis has 4 elements, new values have 6 elements で返って来てしまいました。後ほど再度改めて質問ページに質問いたしますのでもしよろしければご回答いただけないでしょうか…よろしくお願いします！

行動規範の内容に同意します