Pandasで列数の異なるファイルを読み込む

PandasでCSVファイルを読み込む処理を作りたいと思っています。
現在、Djangoを使用して、ファイルアップローダを作成し、CSVファイルを読み込めるようにはなっております。

しかし、行に対する列数が異なるファイルをアップロードしようとすると、parseerrorとなってしまいます。

Python
1import pandas as pd
2df = pd.read_csv('CSV_file', header=None, low_memory=False)

としてPandasでファイルを読み込んでおります。
ここで、引数としてnamesを与え列名を付与すれば足りない部分を欠損値として埋めて読み込むことができる、ということや、引数error_bad_lines＝Falseにすればおかしな行を飛ばして読み込んでくれるということはわかります。

一方で、読み込むCSVファイルに対して、列数の規定を設け、列数が規定と異なる場合は処理を終了するようにしております。引数namesを与えてしまうと、すべてのファイルが規定を満たしてしまうことになると気づきました。
また、header=Noneとしているので、Pandasが勝手に列名を与えてくれているのだと思うのですが、その列名ではnamesで列名を与えたような形でファイルを読み込んではくれないようです。

このような場合、規定のカラム数でのバリデーション（？）を維持しつつ、parseerrorにならないような方法はあるのでしょうか？

ご教示くださいますと幸いです。よろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

そういう処理は、pandasにはあまり向いていませんとしか言いようがないのです。

テーブル状のデータを読み込んでしまえば遺憾なく威力を発揮してくれますが、元々テーブル状になっていないデータに対しては無力です。

とりあえず欲しいテーブルの形になるまでは文字列処理なり標準のcsvモジュール等で読み込んで、その後にpandasのデータフレームに変換して取り扱うというのが一つの選択肢になると思います。

pandasで欠損値の出現位置に基づいて処理してもできなくはないと思いますが・・・

あとは、

列数の規定を設け、列数が規定と異なる場合は処理を終了するようにしております

という設計を捨てられるなら、それが一番手っ取り早いです。

投稿2018/08/24 23:05

hayataka2049

総合スコア30939

Ykkykk

2018/08/26 23:57 編集

ご回答いただきありがとうございます。基本的には同じ列数のファイルを常に読み込むことを考えているのですが、列数の異なるファイルがアップロードされた際に弾くような機能をバリデーションとしてつけたほうがよいのかな、思いました。ですので、列数が異なる場合は極めて稀な状況ではあると思います。

hayataka2049

2018/08/27 01:58

それなら単純に例外処理で弾けば良いのでは

Ykkykk

2018/08/27 02:16

そのように処理を行うようにしたいと思います。 try: df = pd.read_csv('CSV_file', header=None, low_memory=False) except Exception: form.add_error('file', 'NO') という形にしたのですが、例外処理ができていないです。 raiseで例外をあげるのだと思うのですが、このようなif文がない場合はどのように記述することになるのでしょうか？

行動規範の内容に同意します