質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1599閲覧

Python Pandas 毎回列数の違うCSVを取り込んで固定の列数で尚且つ列名を修正して書き出したい。

eqeqe

総合スコア15

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2021/05/13 23:23

編集2021/05/13 23:33

こんにちは。
Python Pandas 毎回列数の違うCSVを取り込んで固定の列数で尚且つ列名を修正して書き出したいと考えています。

1.csv

品名,A,B,C,D,E,
りんご,12,30,20,30,,
みかん,18,40,28,30,10,
りんご,12,30,20,30,,
ぶどう,55,30,20,62,,

のようなCSVがあり、

pandasで読み込んで、列名を

df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E']

とすると

品名,店名A,店名B,店名C,店名D,店名E
りんご,30,20,30,NaN,NaN,
みかん,18,40,28,30,10,
ぶどう,30,20,30,NaN,NaN,
バナナ,30,20,62,NaN,NaN,

という風に返ってきます。
イメージ説明

しかし元のCSVが、

別の列数が少ない1.csv

品名,A,B,C
りんご,30,20,30
みかん,18,40,28
ぶどう,30,20,30
バナナ,30,20,62

だと、

df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E']

とすると

ValueError: Length mismatch: Expected axis has 4 elements, new values have 6 elements

で返ってきます。
イメージ説明

本来4列のデータなのに6列で指定しているからエラーですよと言っているのはなんとなく解るのですが、
取り込みたいCSVの列が毎回一定列数ではなく、なおかつ出力は'品名','店名A', '店名B', '店名C', '店名D', '店名E'のように

品名,店名A,店名B,店名C,店名D,店名E
りんご,30,20,30,NaN,NaN,
みかん,18,40,28,NaN,NaN,
ぶどう,30,20,30,NaN,NaN,
バナナ,30,20,62,NaN,NaN,

の6列で固定したいのですが、df['店名D','店名E']などで列を2つ増やすとしても3列の場合もあれば2列の場合もありそうすると結局Length mismatch:のエラーになってしまうのでその考え方は的外れなのはわかります…
こういった場合どのようにすればいいのでしょうか?

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

足りない列を追加してから列名を設定しましょう。

python

1>>> import pandas as pd 2>>> import io 3>>> 4>>> indata = '''品名,A,B,C 5... りんご,30,20,30 6... みかん,18,40,28 7... ぶどう,30,20,30 8... バナナ,30,20,62''' 9>>> with io.StringIO(indata) as f: 10... df = pd.read_csv(f) 11... 12>>> print(df) 13 品名 A B C 140 りんご 30 20 30 151 みかん 18 40 28 162 ぶどう 30 20 30 173 バナナ 30 20 62 18>>> column_max = 6 19>>> for i in range(column_max - df.shape[1]): 20... df[i] = float('NaN') 21... 22>>> df.columns = ['品名','店名A', '店名B', '店名C', '店名D', '店名E'] 23>>> print(df) 24 品名 店名A 店名B 店名C 店名D 店名E 250 りんご 30 20 30 NaN NaN 261 みかん 18 40 28 NaN NaN 272 ぶどう 30 20 30 NaN NaN 283 バナナ 30 20 62 NaN NaN

投稿2021/05/13 23:41

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

eqeqe

2021/05/13 23:59 編集

すごい!できました! column_max = 6 で最大列6列にして column_max - df.shape[1] でMAXまで[1]列を追加して 値もfloat型で実数に指定するということなのでしょうか? いろいろな使い方があるのですね、勉強になります。 ありがとうございました!
ppaul

2021/05/14 03:57

float('NaN')としている理由は、ppandasのDataFrameの欠損値がfloat('NaN')だからです。 NaNは「数じゃないよ(Not a Number)」の略で「非数」とか呼ばれています。
eqeqe

2021/05/14 05:02

ありがとうございます!いまいちNaNの扱いもあやふやなので非数で一度検索して熟読してみます。 あといただいたコメントで恐縮なのですが、実は朝ご回答いただいたこの質問なのですが、 質問の通りだとうまくいくのですが、応用してみようと思って df.groupbyを使ってソートした結果を同じように列を増やそうと思っても頂いたコードがスルーされてしまうのか 例によってValueError: Length mismatch: Expected axis has 4 elements, new values have 6 elements で返って来てしまいました。 後ほど再度改めて質問ページに質問いたしますのでもしよろしければご回答いただけないでしょうか…よろしくお願いします!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問