ramdomforestの二値分類の勉強をしております初心者でございます。
以前に、御教示いただいた事に関係するのですが、複数行のテストデータをrandomforestに
分類させ、併せて、csvに出力することが出来ず、苦慮しております。
今回のソースコードは以下の通りでございます。
# -*- coding: utf-8 -*- import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier #訓練データ gakusyuu_data = pd.read_csv("g_1.csv" , sep=",") # 特徴データとラベルデータを取り出す gakusyuu_data_except_arrival = gakusyuu_data.drop("result", axis=1) features = gakusyuu_data_except_arrival.as_matrix() targets = gakusyuu_data['result'].as_matrix() ##############モデル設定 model = RandomForestClassifier() model.fit(features, targets) # テストデータ読み込み test_df = pd.read_csv("test_1.csv", sep=",") # テストデータ作成 test_data = test_df[['ratio_1','ratio_2','ratio_3','ratio_4','ratio_5','ratio_6']].as_matrix() # 予測 result = model.predict(test_data) res_ratio = model.predict_proba(test_data) #res_ratio = (model.predict_proba(test_data)[:,1]>0.3).astype(int) print(result) print(res_ratio) # 結果をテストデータに反映 test_df['result'] = result # res_ratio を結合 test_df = pd.concat([test_df, pd.DataFrame(res_ratio, columns=['answer_1','answer_2'])], axis=1) # 結果をCSVファイルに出力 test_df.to_csv('result.csv', index=None)```
学習用データ g_1.csv は以下の通りでございます。
ratio_1 ratio_2 ratio_3 ratio_4 ratio_5 ratio_6 result 2 6 1 10 5 8 1 9 6 2 2 6 16 0 6 9 1 2 9 16 1 8 6 2 6 6 9 0 1 6 1 1 6 16 0 4 5 4 10 9 1 1 2 5 5 5 5 16 0 1 5 1 7 5 2 0 1 5 9 4 6 3 1
テストデータ test_1.csv の内容は以下の通りでございます。
ratio_1 ratio_2 ratio_3 ratio_4 ratio_5 ratio_6 0 1 2 2 1 1 0 0 1 3 0 2 2 0 2 1 0 1 1 2 0 1 2 0 0 1 2 1 0 1
テストデータは一行ずつですと、上記のソースコードで動くのですが、
このように、5行分を一度に分類させて、csvに出力にさせることが出来ず
苦慮しております。
いろいろ調べましたが、うまく出来ませんでした。
先輩方の御教示をよろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/02/15 07:13