編集履歴

質問編集履歴

検証可能なように変更しました

2020/03/29 02:30

投稿

スコア17

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~リストの~~複数データをモデルに順に組込みアレイで返したい。
1	+ 複数データをモデルに順に組込みアレイで返したい。

body CHANGED Viewed

@@ -1,56 +1,107 @@
 見よう見まねのPython初心者です。
-機械学習で構築したモデルで予測をしたいと思っています。
+LightGBMで構築したモデルでAを予測をしたいと思っています。
-予測する件数と入力するパラメータの数が多いので、ある程度まとめて入力したいのです。
+データにはカテゴリ変数と欠損値が含まれています。
+(A_DATA)
+|A|B|C|D|E|F|G|
+|:--|:--:|--:|
+|1|1||1|A|1|1|
+|2|2|2|2|B||2|
+|3|2|4|4|A|3|2|
+|4|5|5|6|B|3|5|
+|5|5||3|A|2|3|
+|2|1|2|1|B|1|1|
+|5|2|2|2|B|3|2|
+|3|2|4|4|B|3|2|
+|4|5|5|6|B|3|5|
+|2|5|6|3|B|2|3|
 ```ここに言語を入力
-data = data.append(pd.DataFrame.from_dict({
+import numpy as np
-    "stg": [1],"No": [6],"Type": [4],"sex": ["M"],"age": [65],"Dw": [78],
-    "wt": [81],"post1": [1],"post2": [8],"post3": [3],"post4": [1],
-    "post5": [5],"min": [3],"mode": ["HD"],"weather": ["曇"],
-    "or": [-1]
+import pandas as pd
-})).reset_index(drop=True)
+import os
+import sys
-data.replace(0,np.nan)
+import lightgbm as lgb
+from sklearn.model_selection import train_test_split
+import matplotlib.pyplot as plt
-X = create_feature(data)
+import seaborn as sns
-model.predict(X[-1:])
 ```
+```ここに言語を入力
+# A_DATA読み込み
-これですと直接入力した分はarrayで表示されます。
+data = pd.read_excel("A_DATA.xlsx")
+# 学習データとテストデータを分ける
+train_data, test_data = train_test_split(data, test_size=3, random_state=0)
+# 特徴量はB、C、D、E、F、G Eをカテゴリ ターゲットはA
-これに3件分のデータを入力したい場合、
+def create_feature(data):
+    feature = data[["B", "C", "D", "E", "F", "G"]].copy()
+    cat_cols = ['E']
+    feature[cat_cols] = feature[cat_cols].astype("category")
-|stg|No|Type|sex|…|
+    return feature
+X_train = create_feature(train_data)
-|:--|:--:|--:|--:|
+y_train = train_data["A"]
-|1|6|4|M|…
-|2|8|2|F|…
-|1|13|5|M|…
+# LightGBMでモデル構築
+X_trn, X_val, y_trn, y_val = train_test_split(X_train, y_train, test_size=3, random_state=0)
+lgb_dataset_trn = lgb.Dataset(X_trn, label=y_trn, categorical_feature='auto')
+lgb_dataset_val = lgb.Dataset(X_val, label=y_val, categorical_feature='auto')
+params = {
+    'objective' : 'rmse',
-for文を使うとは思いますが、いまいち文法が理解できていません。
+    'learning_rate' : 0.1,
+    'max_depth' : -1,
+}
+model = lgb.train(
+    params=params,
+    train_set=lgb_dataset_trn,
+    valid_sets=[lgb_dataset_val],
+    num_boost_round=100,
+    early_stopping_rounds=10,
+    verbose_eval=10
+)
+```
+このモデルに値（B=6、C=1、D=2、E="B"、F=5、G=4、A=-1）を入力すると
 ```ここに言語を入力
+# Aを予測 B=6、C=1、D=2、E="B"、F=5、G=4、A=-1
 data = data.append(pd.DataFrame.from_dict({
+    "B": [6],
+    "C": [1],
-    "stg": [1,2,1],"No": [6,8,13],"Type": [4,2,5],"sex": ["M","F","M"],"age": [65,71,70],"Dw": [78,45,62],
+    "D": [2],
-    "wt": [81,47.5,66.2],"post1": [1,2,8],"post2": [8,5,8],"post3": [3,3,5],"post4": [1,2,5],
+    "E": ["B"],
-    "post5": [5,4,0],"min": [3,3,3],"mode": ["D","O","I"],"weather": ["曇","曇","曇"],
+    "F": [5],
+    "G": [4],
-    "or": [-1]
+    "A": [-1]
 })).reset_index(drop=True)
 data.replace(0,np.nan)
-for i in data:
-    X = create_feature(data)
+X = create_feature(data)
 model.predict(X[-1:])
 ```
-arrayも一つしか表示されません。
+array([2.5])とAの予測結果が表示されます。
-あとは、
-```ここに言語を入力
-dat1 = [1,6,2,"M",65,78,81,1,8,3,1,5,3,"D","曇"]
-dat2 = [2,8,2,"F",71,45,47.5,2,5,3,2,4,3,"O","曇"]
-dat3 = [1,13,5,"M",70,62,66.2,8,8,5,5,0,3,"I","曇"]
-x_pred = [dat1,dat2,dat3]
-model.predict(x_pred)
-```
-というような書き方もしてみましたが、
+これで例えば3件分のデータでAを予測したい場合、
-TypeError: list indices must be integers or slices, not str.
+・B=6、C=1、D=4、E="B"、F=3、G=2、A=-1
-になってしまいます。
+・B=1、C=2、D=3、E="A"、F=2、G=4、A=-1
+・B=3、C=2、D=1、E="B"、F=5、G=1、A=-1
+入力するパラメータが多いのと1件ずつ入力しないといけないので、何とかまとめて入力できないかと考えています。
+可能なら、
+・[6,1,4,B,3,2,-1]
+・[1,2,3,A,2,4,-1]
+・[3,2,1,B,5,1,-1]
+という感じに行方向だと入力も楽になります。
+for文を使うとは思いますが、いまいち文法が理解できていません。
 是非ともご教授下さるようお願いいたします。

7 514 716