pandas csvファイルにある改行を解消したい

環境：python3.6,　win10、jupyter notebook

初学者です。既にあるデータフレームの改行記号「\n」を解消したいと考えております。

例えば以下のようなデータフレームに対し、

data1(jupyter上では\nが見えています,エクセルなどで開くと改行されています)

列1	列2	列3
\nあ	い	\n\nう\n\n
え	お	\nか\n
き	\nく	け
こ\n	さ	し

以下のようなコードを実行しても記号が残ったままになります。

Python3
1#data1は既に処理済みのもの
2data1 = data1.replace("\n","")

このようなときはどうしたらよいでしょうか。csvファイル出力の際に改行が解消されていればそれでよいです。
教えて下さると幸いです。よろしくお願いいたします。

行動規範の内容に同意します

回答3件

regex=Trueを指定することで意図した動作になります。
参考：pandas – some ways to replace part of a string.

Python
1import pandas as pd
2df = pd.DataFrame( {'c1':['\nあ','い'], 'c2':['\n\nう\n\n', 'え']})
3print(df)
4df = df.replace( '\n', '', regex=True)
5print(df)

投稿2018/01/11 06:18

can110

総合スコア38256

ak_miyamoto

2018/01/11 06:29

先ほどに引き続きありがとうございます。勉強になります！！！

行動規範の内容に同意します

ベストアンサー

Python
1df = df.apply(lambda d: d.str.strip())

でどうでしょうか。

投稿2018/01/11 06:15

magichan

総合スコア15898

ak_miyamoto

2018/01/11 06:29

ファイルがきれいになりました。ありがとうございます！

行動規範の内容に同意します

たいぶ昔の投稿のようですが自分のメモ代わりにコメントさせてください…

どの方法が時間的に早いのか確かめたかったのでしらべたところ、当方の環境では以下のとおりでした

py
1import pandas as pd
2df = pd.DataFrame(np.array(["あ\n"]*1000*1000).reshape(1000,1000))
3
4#方法1
5df = df.replace( '\n', '', regex=True)
6#>> 1.04 s ± 8.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
7
8#方法2
9for x in df.columns:
10    df[x]=df[x].str.replace('\n','')
11#>> 869 ms ± 2.35 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
12
13#方法3
14df = df.apply(lambda x:x.str.strip())
15#>> 806 ms ± 1.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
16