質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

1048閲覧

Pythonでのデータの保存について

omixin

総合スコア58

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/01/05 02:39

編集2020/01/05 02:47

Pythonを利用してデータ分析を行なっています。
LightGBMライブラリを利用するにあたって、読み込ませるための設定ファイルを作成する必要があり、試行錯誤しているのですがうまくできないため質問させてください。

作りたいファイル例

(i)1要素目には機械学習のためのラベル
(ii)2要素目以降にて対応するカラム番号とその特徴量を列挙
(iii)各要素間はスペースでセパレート

txt

10 0:0.01 1:0.1 2:0.2 4:0.4 23 1:0.2 3:0.6 4:0.8 31 0:0.03 3:0.9 4...

現在の自分の作成例

(1)対応するようにデータフレームを作る
('NaN'としているのは、np.nanを使うとなぜか(2)がうまくいかないため。その理由も教えてもらえたら幸)

Python

1import numpy as np 2import pandas as pd 3 4df = pd.DataFrame({'label': [0, 3, 1], 5 '特徴量1': [0.01, 'NaN', 0.03], 6 '特徴量2': [0.1, 0.2, 'NaN'], 7 '特徴量3': [0.2, 'NaN', 'NaN'], 8 '特徴量4': ['NaN', 0.6, 0.9], 9 '特徴量5': [0.4, 0.8, 'NaN']}) 10 11df 12 13# <result> 14# label 特徴量1 特徴量2 特徴量3 特徴量4 特徴量5 15# 0 0 0.01 0.1 0.2 NaN 0.4 16# 1 3 NaN 0.2 NaN 0.6 0.8 17# 2 1 0.03 NaN NaN 0.9 NaN

(2)NaNを取り除いていい感じに1カラムに収める

Python

1label = df[['label']] 2tmp = df.drop(['label'], axis=1) 3tmp.columns = range(tmp.shape[1]) 4 5for c_n in tmp.columns: 6 tmp[c_n] = ['{0}:{1}'.format(c_n, v) if v != 'NaN' else 'NaN' for v in tmp[c_n]] 7res = pd.concat([label, tmp], axis=1) 8 9 10for i in range(res.shape[1]-1): 11 res['label'] = ['{0} {1}'.format(v1, v2) if v2 != 'NaN' else v1 for v1, v2 in zip(res['label'], res.iloc[:, i+1])] 12 13res[['label']] 14 15# <result> 16# label 17# 0 0 0:0.01 1:0.1 2:0.2 4:0.4 18# 1 3 1:0.2 3:0.6 4:0.8 19# 2 1 0:0.03 3:0.9

(3)最後にpandasのto_csvを使って、index,header,sepのオプションを設定する

Python

1res2 = res[['label']] 2res2.to_csv('sample.txt', sep=' ', index=False, header=False) 3# 追記:ここでのsepの設定は不要 4 5# <result> 6# "0 0:0.01 1:0.1 2:0.2 4:0.4" 7# "3 1:0.2 3:0.6 4:0.8" 8# "1 0:0.03 3:0.9"

課題として、最終的にpandasがobject型と認識して「"」で囲ってしまうようです..
毎回sedで処理するのも面倒ですしできればPythonスクリプト内で完結させたいのですが、
どのようにすればよいか教えてもらえないでしょうか。
お願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

coco_bauer

2020/01/05 03:00

『(2)NaNを取り除いていい感じに1カラムに収める』の”いい感じ”っていうのは、どういう意味ですか???
omixin

2020/01/05 03:10

厳密な詳細はコードを確認いただければわかると思いますが、 (1)で用意したデータフレームを、作りたいファイルのかたちに寄せるというイメージです。 (特徴量のカラムと特徴量をコロンで対応づける、など)
bsdfan

2020/01/05 06:30

> 'NaN'としているのは、np.nanを使うとなぜか(2)がうまくいかないため。 もしかして、v != np.nan みたいに比較してませんか? 比較演算子ではNaNの判定はできません。np.isnan(v) か math.isnan(v) を使います。
omixin

2020/01/05 06:44

bsdfanさん ありがとうございます!推察の通り、v!=np.nanとしていました。。 以下のようにして解決できましたが、np.nanの型がfloatである関係で、文字列型の値に対してnp.isnan()をかけた際にエラーが出てしまい、場当たり的な解決となってしまっているところは否めない感じとなりました。 変更箇所は、2つのfor文の中の三項内包表記の条件式内の部分となり、1つ目はnp.isnanを使えたものの、2つ目はnp.isnan()を使えなかった.. [code] ## (1)にてnp.nanと置き換えた後の(2)の改良↓ label = df[['label']] tmp = df.drop(['label'], axis=1) tmp.columns = range(tmp.shape[1]) for c_n in tmp.columns: tmp[c_n] = ['{0}:{1}'.format(c_n, v) if not(np.isnan(v)) else np.nan for v in tmp[c_n]] res = pd.concat([label, tmp], axis=1) for i in range(res.shape[1]-1): res['label'] = ['{0} {1}'.format(v1, v2) if type(v2) == str else v1 for v1, v2 in zip(res['label'], res.iloc[:, i+1])] res[['label']] [/code]
guest

回答2

0

hint

pandasを使わずにファイル出力を自分で実装したらよさそうか?

投稿2020/01/05 02:54

omixin

総合スコア58

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

omixin

2020/01/05 06:23 編集

削除しました
guest

0

自己解決

ファイルの出力部分を自分で実装することで解決した。

具体的には以下にて解決できた。
(3)の部分をこちらに変更すればOK

(3')ファイルの出力

Python

1## リストにしておく 2res3 = res['label'] 3 4path = 'sample2.txt' 5 6with open(path, mode='w') as f: 7 f.write('\n'.join(res3)) 8 9# <result> 10# 0 0:0.01 1:0.1 2:0.2 4:0.4 11# 3 1:0.2 3:0.6 4:0.8 12# 1 0:0.03 3:0.9

投稿2020/01/05 06:23

omixin

総合スコア58

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問