回答率: 85.29%

質問するログイン新規登録

トップ 514に関する質問大量のカテゴリ変数を量的変数に加工する方法

編集履歴

質問編集履歴

1

2018/10/25 15:34

投稿

スコア303

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~複雑なモデル~~の~~アンサンブル学習(stacking)の~~方法
1	+ 大量のカテゴリ変数を量的変数に加工する方法

body CHANGED Viewed

@@ -1,38 +1,7 @@
-[このサイト](http://segafreder.hatenablog.com/entry/2016/05/26/232728)を参考にしてアンサンブル学習(stacking)をしようと思ってます。
+機械学習の特徴量エンジニアリングで大量のブランドidを扱うのですが、全部をダミー変数にすると多すぎるので、なるべく量的変数に変換したいと考えています。
-stage 0で入れるモデルとして
+一案としてはブランドidと対のブランド名をword2vecで類似度に変換して量的変数化する方法を考えています。
-①xgboost（[このサイト](https://github.com/bakuratozoku/segment_classification_by_xgbost/blob/master/xgboost.ipynb)のxgboost）
+何か大量のカテゴリ変数(id）を量的変数に変換する方法でいい方法はないでしょうか？
-②kerasで作ったニューラルネットワーク(NN)
-```python
+ご教授お願いします
-model = Sequential()
-model.add(Dense(1024, input_dim=5, activation='relu'))
-model.add(Dense(512, activation='relu'))
-model.add(Dense(256, activation='relu'))
-model.add(Dense(classes, activation='softmax'))
-model.compile(optimizer='rmsprop',
-                    loss='categorical_crossentropy',
-                    metrics=['accuracy'])
-model.fit(train_x,train_y, epochs=10, batch_size=bsize)
-```
-③[Factorization Machines(libFM)](https://github.com/oreilly-japan/ml-at-work/blob/master/chap07/Movie_recommendation.ipynb)
-のモデルをStage 0のモデルに挿入したいのですが、下記のようにモデルの本体を入れる入れ方でいいのでしょうか?
-特にkerasのNNの入れ方があってるかわかりません。ご教授お願いします
----
-**入れるモデルの形式**
-①xgboost→ best_paramsを入れたxgb.train()
-xgb.train(best_params, train_xd, num_boost_round=100)
-②kerasのNN=> model.compile以降のmodel
-③libFM => mcmc.FMRegression(n_iter=n_iter, rank=rank, random_state=seed)
-```python
-# Stage 0のモデルたち
-clfs = [xgb.train(best_params, train_xd, num_boost_round=100),
-        model, mcmc.FMRegression(n_iter=n_iter, rank=rank, random_state=seed)
-        ]
-```