Python pandas 空白部を探してすべてNaNで埋めたい

[test.csv]
カテゴリ1，カテゴリ2，
あいう,かきく,
えお,,

を

df = pd.read_csv('test.csv',encoding='shift_jis', dtype=str)

で読み込んで、

df['カテゴリ3'] = pd.Series()
df['カテゴリ4'] = pd.Series()
df['カテゴリ5'] = pd.Series()

と列を追加すると

カテゴリ1,カテゴリ2,カテゴリ3,カテゴリ4,カテゴリ5,
あいう,かきく,
えお,NaN,

となります。

これを

カテゴリ1,カテゴリ2,カテゴリ3,カテゴリ4,カテゴリ5,
あいう,かきく,NaN,NaN,NaN,
えお,NaN,NaN,NaN,NaN,

と空白部を探してすべてNaNで埋めたいのですが
どうすれでできるのでしょうか？

よろしくお願いします。

df.apply(lambda x: np.nan if isinstance( x, str) and (x.isspace() or not x) else x)
なども試してみたのですが結果は何も起きませんでした。

行動規範の内容に同意します

回答2件

問題点は3個あります。
問題点1 カテゴリ1，の"，"が全角
問題点2 各列の最後の","が余分
問題点3 NaNにしたいというのが、DataFrameを見たときの話なのかcsvファイルにしたと
きなのかが不明。

DataFrameと書き出したcsvの両方でNaNと見えるようにする方法を、誤りを修正したデータを使って、StringIOで入出力した例を示します。

DataFrameの場合、欠損値はNaNと表示されます
これをto_csvでcsvファイルに書き込んだとき、特に指定しなければ欠損値は""となります。
もしもcsvファイルでNaNと表示したい場合は、na_rep="NaN"を指定します。

python
1>>> import pandas as pd
2>>> import io
3>>>
4>>> in_csv = '''カテゴリ1,カテゴリ2
5... あいう,かきく
6... えお,'''
7>>>
8>>> with io.StringIO(in_csv) as f:
9...     df = pd.read_csv(f)
10...
11>>> df['カテゴリ3'] = pd.Series()
12<stdin>:1: DeprecationWarning: The default dtype for empty Series will be 'object' instead of 'float64' in a future version. Specify a dtype explicitly to silence this warning.
13>>> df['カテゴリ4'] = pd.Series()
14>>> df['カテゴリ5'] = pd.Series()
15>>> print(df)
16  カテゴリ1 カテゴリ2  カテゴリ3  カテゴリ4  カテゴリ5
170   あいう   かきく    NaN    NaN    NaN
181    えお   NaN    NaN    NaN    NaN
19>>>
20>>> with io.StringIO() as f:
21...     df.to_csv(f, index=False, na_rep="NaN")
22...     out_csv = f.getvalue()
23...
24>>> print(out_csv)
25カテゴリ1,カテゴリ2,カテゴリ3,カテゴリ4,カテゴリ5
26あいう,かきく,NaN,NaN,NaN
27えお,NaN,NaN,NaN,NaN
28

投稿2021/05/12 23:32

ppaul

総合スコア24670

eqeqe

2021/05/13 20:55

ppaulさんいつもありがとうございます！そうでしたね文字列としてのNaNなのか質問わかりにくかったですね＾＾；うまくいきましたありがとうございます!

行動規範の内容に同意します

ベストアンサー

おはようございます。

問題文確認しました。

csvファイルがよくないように感じました。

csv
1カテゴリ1,カテゴリ2
2あいう,かきく
3えお,

Python
1
2
3import pandas as pd
4
5df = pd.read_csv('./test.csv')
6
7df['カテゴリ3'] = pd.Series(dtype=str)
8df['カテゴリ4'] = pd.Series(dtype=str)
9df['カテゴリ5'] = pd.Series(dtype=str)
10
11print(df)