質問編集履歴

変更

2018/10/24 07:44

投稿

trafalbad

スコア303

test CHANGED Viewed

	@@ -1 +1 @@
1	- Factoriza~~tion Machin~~e~~s(libFM)で~~の~~レコメンド~~に~~読み込ませるデータ~~形式に~~ついて~~
1	+ pandasのdataframeをリストの中に辞書を挿入した形式にする方法

test CHANGED Viewed

@@ -1,161 +1,63 @@
-レコメンドのFactorization Machines(libFM)に訓練データとテストデータを読み込ませたところ次のようなエラーがでました
-```python
-TypeError: A dense matrix was passed in, but sparsedata is required.
-```
-データはともにnumpy形式で読み込ませました。pandasでも同様のエラーです
+次のようなpandasのDataFrame(df)があります
-Factorization Machinesは特殊な行列を使うようなのですが、読み込ませるデータはどのような形式にすればいいのでしょうか？
-ご教授お願いします。
 ```python
-f1=pd.read_csv('both.csv')
+user_id	age	sex	occupation	zip_code
-f1=f1.fillna(0)
+23              12      11              11
-＃ ラベル
+34              22      22              33
-label=pd.DataFrame(f1['label'])
+445             33      44              22
-label=label.applymap(lambda x: int(x-1))
-label=np.array(label)
+```
->>>(1180237, 1)
-# 特徴量
-f1=f1.drop('label', axis=1)
+これをしたのような形(dic_list)に変化させたいと考えています
-data=f1.drop('kaiin', axis=1)
-data=np.array(data)
->>>(1180237, 15)
+```python
+# dic_list
-# train/test データに分ける
+[
-X_train, X_test, y_train, y_test = train_test_split(data,
+   {'user_id': '23', 'movie_id': '12', 'occupation':'11', 'zip_code': '11'},
-                                label, test_size=0.4,random_state=0)
+   {'user_id': '34', 'movie_id': '22', 'occupation':'22', 'zip_code': '33'},
+   {'user_id': '445', 'movie_id': '33', 'occupation':'44', 'zip_code': '22'},
+]
+```
-# 読み込ませる
-from sklearn.metrics import mean_squared_error
+[このサイト](https://github.com/oreilly-japan/ml-at-work/blob/master/chap07/Movie_recommendation.ipynb)のようにしたいのですが、このサイトではわかりやすいやり方では
-from fastFM import mcmc
-n_iter = 300
+```python
-step_size = 1
+data=[]
-seed = 123
+data.append({ "user_id": str(user), "movie_id": str(movieid)})
-rank = 4
+```
+のように入れていました。
+```list(df.T.to_dict().values())```
-fm = mcmc.FMRegression(n_iter=0, rank=rank, random_state=seed)
-# Allocates and initalizes the model and hyper parameter.
-fm.fit_predict(X_train, y_train, X_test)
+としても、上の形(dic_list)になりません。
-# エラー
-TypeError                                 Traceback (most recent call last)
-<ipython-input-28-9558dce7ad6e> in <module>()
-     14 fm = mcmc.FMRegression(n_iter=0, rank=rank, random_state=seed)
-     15 # Allocates and initalizes the model and hyper parameter.
----> 16 fm.fit_predict(X_train, y_train, X_test)
-     17
-     18 rmse_dev_test = []
-~/anaconda3/lib/python3.6/site-packages/fastFM/mcmc.py in fit_predict(self, X_train, y_train, X_test, n_more_iter)
-    108         self.task = "regression"
-    109         X_train, y_train, X_test = _validate_mcmc_fit_input(X_train, y_train,
+pandasの通常のDataFrameをリストの中に辞書形式を挿入する形式(dic_list)のようにする方法を教えていただけないでしょうか？よろしくお願いします
---> 110                                                             X_test)
-    111
-    112         self.n_iter = self.n_iter + n_more_iter
-~/anaconda3/lib/python3.6/site-packages/fastFM/mcmc.py in _validate_mcmc_fit_input(X_train, y_train, X_test)
-     50         assert X_train.shape[1] == X_test.shape[1]
-     51         X_train = check_array(X_train, accept_sparse="csc", dtype=np.float64,
----> 52                               order="F")
-     53         X_test = check_array(X_test, accept_sparse="csc", dtype=np.float64,
-     54                              order="F")
-~/anaconda3/lib/python3.6/site-packages/fastFM/validation.py in wrapper(*args, **kwargs)
-     27     def wrapper(*args, **kwargs):
-     28         if 'accept_sparse' in kwargs and not sparse.isspmatrix(args[0]):
----> 29             raise TypeError('A dense matrix was passed in, but sparse'
-     30                             'data is required.')
-     31         result = func(*args, **kwargs)
-TypeError: A dense matrix was passed in, but sparsedata is required.
-```

質問変更

2018/10/24 07:44

投稿

trafalbad

スコア303

test CHANGED Viewed

	@@ -1 +1 @@
1	- ~~kube~~rnetes内で~~tensorflowとGPUを動かす方法~~
1	+ Factorization Machines(libFM)でのレコメンドに読み込ませるデータ形式について

test CHANGED Viewed

@@ -1,13 +1,161 @@
-GKE上でkubernetes(k8s)を使い、機械学習基盤（下図の[メルカリの基盤](https://tech.mercari.com/entry/mercari-mlopsnight-1)）を構築しようとしています。
+レコメンドのFactorization Machines(libFM)に訓練データとテストデータを読み込ませたところ次のようなエラーがでました
+```python
+TypeError: A dense matrix was passed in, but sparsedata is required.
+```
+データはともにnumpy形式で読み込ませました。pandasでも同様のエラーです
-下の図のようにk8s内でtensorflow のGPUを動かすためにはnvidia dockerをホストマシンからマウントする方法があると記事で見たのですが（https://qiita.com/cvusk/items/5a6f57876fdcff7710d2 )  、2018年10月の時点ではもっと簡単な方法はあるのでしょうか？それともまだホストマシンからマウントする方法が主流なのでしょうか？
+Factorization Machinesは特殊な行列を使うようなのですが、読み込ませるデータはどのような形式にすればいいのでしょうか？
+ご教授お願いします。
-ご教授お願いします
+```python
+f1=pd.read_csv('both.csv')
+f1=f1.fillna(0)
+＃ ラベル
+label=pd.DataFrame(f1['label'])
+label=label.applymap(lambda x: int(x-1))
+label=np.array(label)
+>>>(1180237, 1)
+# 特徴量
+f1=f1.drop('label', axis=1)
+data=f1.drop('kaiin', axis=1)
+data=np.array(data)
+>>>(1180237, 15)
+# train/test データに分ける
+X_train, X_test, y_train, y_test = train_test_split(data,
+                                label, test_size=0.4,random_state=0)
+# 読み込ませる
+from sklearn.metrics import mean_squared_error
+from fastFM import mcmc
+n_iter = 300
+step_size = 1
+seed = 123
+rank = 4
+fm = mcmc.FMRegression(n_iter=0, rank=rank, random_state=seed)
+# Allocates and initalizes the model and hyper parameter.
+fm.fit_predict(X_train, y_train, X_test)
+# エラー
+TypeError                                 Traceback (most recent call last)
-![イメージ説明](0d08216b304e25badeddbc0ee91a67dd.png)
+<ipython-input-28-9558dce7ad6e> in <module>()
+     14 fm = mcmc.FMRegression(n_iter=0, rank=rank, random_state=seed)
+     15 # Allocates and initalizes the model and hyper parameter.
+---> 16 fm.fit_predict(X_train, y_train, X_test)
+     17
+     18 rmse_dev_test = []
+~/anaconda3/lib/python3.6/site-packages/fastFM/mcmc.py in fit_predict(self, X_train, y_train, X_test, n_more_iter)
+    108         self.task = "regression"
+    109         X_train, y_train, X_test = _validate_mcmc_fit_input(X_train, y_train,
+--> 110                                                             X_test)
+    111
+    112         self.n_iter = self.n_iter + n_more_iter
+~/anaconda3/lib/python3.6/site-packages/fastFM/mcmc.py in _validate_mcmc_fit_input(X_train, y_train, X_test)
+     50         assert X_train.shape[1] == X_test.shape[1]
+     51         X_train = check_array(X_train, accept_sparse="csc", dtype=np.float64,
+---> 52                               order="F")
+     53         X_test = check_array(X_test, accept_sparse="csc", dtype=np.float64,
+     54                              order="F")
+~/anaconda3/lib/python3.6/site-packages/fastFM/validation.py in wrapper(*args, **kwargs)
+     27     def wrapper(*args, **kwargs):
+     28         if 'accept_sparse' in kwargs and not sparse.isspmatrix(args[0]):
+---> 29             raise TypeError('A dense matrix was passed in, but sparse'
+     30                             'data is required.')
+     31         result = func(*args, **kwargs)
+TypeError: A dense matrix was passed in, but sparsedata is required.
+```

2018/10/24 02:16

投稿

trafalbad

スコア303

test CHANGED Viewed

	@@ -1 +1 @@
1	- kubernetes内で~~のパイプラインの構築~~方法~~について~~
1	+ kubernetes内でtensorflowとGPUを動かす方法

test CHANGED Viewed

@@ -2,35 +2,11 @@
-下の図のようにk8s内でgunicornやredisなどを運用するためには、
-・gunicorn用のDockerの構築
-・redis用のDockerの構築
-のように各パートごとにPodを用意してDockerを起動するように、Podを複数作る構造なのでしょうか？
+下の図のようにk8s内でtensorflow のGPUを動かすためにはnvidia dockerをホストマシンからマウントする方法があると記事で見たのですが（https://qiita.com/cvusk/items/5a6f57876fdcff7710d2 )  、2018年10月の時点ではもっと簡単な方法はあるのでしょうか？それともまだホストマシンからマウントする方法が主流なのでしょうか？
-それとも一つのDockerのみで全てのパイプラインパーツを構築しているのでしょうか？
-**質問**
-下図のような基盤のパイプラインの構築方法として
-①単一のDocker
-か
-②複数のPod内でDockerを構築している
-のどちらなのでしょうか？ご教授お願いします
+ご教授お願いします

追記

2018/10/19 02:27

投稿

trafalbad

スコア303

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,4 +1,4 @@
-GKE上でkubernetes(k8s)を使い、機械学習基盤（下図のメルカリの基盤）を構築しようとしています。
+GKE上でkubernetes(k8s)を使い、機械学習基盤（下図の[メルカリの基盤](https://tech.mercari.com/entry/mercari-mlopsnight-1)）を構築しようとしています。