randomforestの結果であるpredict_probaをcsvに出力出来ず、苦慮しております。

randomforestで二値分類の勉強をしております初心者でございます。

今回のソースコードは以下の通りでございます。

# -*- coding: utf-8 -*-

import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

#訓練データ
gakusyuu_data = pd.read_csv("g_1.csv" , sep=",")

# 特徴データとラベルデータを取り出す
gakusyuu_data_except_arrival = gakusyuu_data.drop("result", axis=1)

features = gakusyuu_data_except_arrival.as_matrix()
targets = gakusyuu_data['result'].as_matrix()

##############モデル設定

model = RandomForestClassifier()

model.fit(features, targets)

# テストデータ読み込み
test_df = pd.read_csv("test_1.csv", sep=",")
# テストデータ作成
test_data = test_df[['ratio_1','ratio_2','ratio_3','ratio_4','ratio_5','ratio_6']].as_matrix()
# 予測
result = model.predict(test_data)

res_ratio = model.predict_proba(test_data)

print(result)
print(res_ratio)

# 結果をテストデータに反映
test_df['result'] = result


print(test_df)

test_df.to_csv('result.csv', index=None)

#res_ratio.to_csv('result_1.csv', index=None) #この部分を改変出来ず、苦慮しております。

g1_csvの内容は以下の通りでございます。

ratio_1	ratio_2	ratio_3	ratio_4	ratio_5	ratio_6	result
2	6	1	10	5	8	1
9	6	2	2	6	16	0
6	9	1	2	9	16	1
8	6	2	6	6	9	0
1	6	1	1	6	16	0
4	5	4	10	4	1	1
2	5	5	5	5	16	0
1	5	1	7	5	2	0
1	5	9	4	6	3	1

test_1.csvの内容は以下の通りでございます。

ratio_1	ratio_2	ratio_3	ratio_4	ratio_5	ratio_6
7	7	4	11	4	18

上記のソースコードを動かしますと

[1]
[[ 0.4  0.6]]
   ratio_1  ratio_2  ratio_3  ratio_4  ratio_5  ratio_6  result
0        7        7        4       11        4       18       1```

このように、分類結果と、分類の根拠の割合であります　predict_proba　が

[[ 0.4  0.6]]と出力されます。

この割合を、result.csvに併せて、一緒にcsvに出力することが目的でございます。


例えば、

|ratio_1	ratio_2	ratio_3	ratio_4	ratio_5	ratio_6	result	answer_1	answer_2
7	7	4	11	4	18	1	0.4	0.6


このように、csvファイルとして、出力することが出来れば理想でございます。

numpyについて、いろいろ調べましたが、どうしても解決出来ません。

ヒント等でも頂けますと幸いです。

先輩方の御教示をよろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

こんな感じでよろしいでしょうか？

Python
1# 予測
2result = model.predict(test_data)
3res_ratio = model.predict_proba(test_data)
4
5print(result)
6print(res_ratio)
7
8# 結果をテストデータに反映
9test_df['result'] = result
10
11# res_ratio を結合
12test_df = pd.concat([test_df, pd.DataFrame(res_ratio, columns=['answer_1','answer_2'])], axis=1)
13
14# 結果をCSVファイルに出力
15test_df.to_csv('result.csv', index=None)