Pythonでのデータの保存について

Pythonを利用してデータ分析を行なっています。
LightGBMライブラリを利用するにあたって、読み込ませるための設定ファイルを作成する必要があり、試行錯誤しているのですがうまくできないため質問させてください。

作りたいファイル例

(i)1要素目には機械学習のためのラベル
(ii)2要素目以降にて対応するカラム番号とその特徴量を列挙
(iii)各要素間はスペースでセパレート

txt
10 0:0.01 1:0.1 2:0.2 4:0.4
23 1:0.2 3:0.6 4:0.8
31 0:0.03 3:0.9
4...

現在の自分の作成例

(1)対応するようにデータフレームを作る
('NaN'としているのは、np.nanを使うとなぜか(2)がうまくいかないため。その理由も教えてもらえたら幸)

Python
1import numpy as np
2import pandas as pd
3
4df = pd.DataFrame({'label': [0, 3, 1], 
5                   '特徴量1': [0.01, 'NaN', 0.03], 
6                   '特徴量2': [0.1, 0.2, 'NaN'], 
7                   '特徴量3': [0.2, 'NaN', 'NaN'], 
8                   '特徴量4': ['NaN', 0.6, 0.9], 
9                   '特徴量5': [0.4, 0.8, 'NaN']})
10
11df
12
13# <result>
14#   label  特徴量1  特徴量2   特徴量3  特徴量4  特徴量5
15# 0     0    0.01     0.1      0.2     NaN     0.4
16# 1     3     NaN     0.2      NaN     0.6     0.8
17# 2     1    0.03     NaN      NaN     0.9     NaN

(2)NaNを取り除いていい感じに1カラムに収める

Python
1label = df[['label']]
2tmp = df.drop(['label'], axis=1)
3tmp.columns = range(tmp.shape[1])
4
5for c_n in tmp.columns:
6    tmp[c_n] = ['{0}:{1}'.format(c_n, v) if v != 'NaN' else 'NaN' for v in tmp[c_n]]
7res = pd.concat([label, tmp], axis=1)
8
9
10for i in range(res.shape[1]-1):
11    res['label'] = ['{0} {1}'.format(v1, v2) if v2 != 'NaN' else v1 for v1, v2 in zip(res['label'], res.iloc[:, i+1])]
12
13res[['label']]
14
15# <result>
16#                            label
17# 0	0 0:0.01 1:0.1 2:0.2 4:0.4
18# 1	       3 1:0.2 3:0.6 4:0.8
19# 2	            1 0:0.03 3:0.9

(3)最後にpandasのto_csvを使って、index,header,sepのオプションを設定する

Python
1res2 = res[['label']]
2res2.to_csv('sample.txt', sep=' ', index=False, header=False)
3# 追記：ここでのsepの設定は不要
4
5# <result>
6# "0 0:0.01 1:0.1 2:0.2 4:0.4"
7# "3 1:0.2 3:0.6 4:0.8"
8# "1 0:0.03 3:0.9"

課題として、最終的にpandasがobject型と認識して「"」で囲ってしまうようです..
毎回sedで処理するのも面倒ですしできればPythonスクリプト内で完結させたいのですが、
どのようにすればよいか教えてもらえないでしょうか。
お願いします。

coco_bauer

2020/01/05 03:00

『(2)NaNを取り除いていい感じに1カラムに収める』の”いい感じ”っていうのは、どういう意味ですか？？？

omixin

2020/01/05 03:10

厳密な詳細はコードを確認いただければわかると思いますが、 (1)で用意したデータフレームを、作りたいファイルのかたちに寄せるというイメージです。（特徴量のカラムと特徴量をコロンで対応づける、など）

bsdfan

2020/01/05 06:30

> 'NaN'としているのは、np.nanを使うとなぜか(2)がうまくいかないため。もしかして、v != np.nan みたいに比較してませんか？比較演算子ではNaNの判定はできません。np.isnan(v) か math.isnan(v) を使います。

omixin

2020/01/05 06:44

bsdfanさんありがとうございます！推察の通り、v!=np.nanとしていました。。以下のようにして解決できましたが、np.nanの型がfloatである関係で、文字列型の値に対してnp.isnan()をかけた際にエラーが出てしまい、場当たり的な解決となってしまっているところは否めない感じとなりました。変更箇所は、2つのfor文の中の三項内包表記の条件式内の部分となり、1つ目はnp.isnanを使えたものの、2つ目はnp.isnan()を使えなかった.. [code] ## (1)にてnp.nanと置き換えた後の(2)の改良↓ label = df[['label']] tmp = df.drop(['label'], axis=1) tmp.columns = range(tmp.shape[1]) for c_n in tmp.columns: tmp[c_n] = ['{0}:{1}'.format(c_n, v) if not(np.isnan(v)) else np.nan for v in tmp[c_n]] res = pd.concat([label, tmp], axis=1) for i in range(res.shape[1]-1): res['label'] = ['{0} {1}'.format(v1, v2) if type(v2) == str else v1 for v1, v2 in zip(res['label'], res.iloc[:, i+1])] res[['label']] [/code]

行動規範の内容に同意します

回答2件

hint

pandasを使わずにファイル出力を自分で実装したらよさそうか？

投稿2020/01/05 02:54

omixin

総合スコア58

omixin

2020/01/05 06:23 編集

削除しました

行動規範の内容に同意します

自己解決

ファイルの出力部分を自分で実装することで解決した。

具体的には以下にて解決できた。
(3)の部分をこちらに変更すればOK

(3')ファイルの出力

Python
1## リストにしておく
2res3 = res['label']
3
4path = 'sample2.txt'
5
6with open(path, mode='w') as f:
7    f.write('\n'.join(res3))
8
9# <result>
10# 0 0:0.01 1:0.1 2:0.2 4:0.4
11# 3 1:0.2 3:0.6 4:0.8
12# 1 0:0.03 3:0.9