トップ 317に関する質問 scikit-learnでデータ分割するときに配列番号を指定して特定のデータを取ってくる方法がわからない

編集履歴

質問編集履歴

誤字

2021/08/11 02:34

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -9,8 +9,8 @@
 例
 ```
-dataset[0] = {'train':[0 1 2 3 4 5 6 7], 'test':[8 9]}
+dataset[0] = {'train':[0, 1, 2, 3, 4, 5, 6, 7], 'test':[8, 9]}
-dataset[1] = {'train':[2 3 4 5 6 7 8 9], 'test':[0 1]}
+dataset[1] = {'train':[2, 3, 4, 5, 6, 7, 8, 9], 'test':[0, 1]}
 dataset[2]
 dataset[3]
 dataset[4]
@@ -28,13 +28,15 @@
 ```python
 from sklearn.model_selection import train_test_split
+a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
-a_train, a_test = train_test_split(a,　test_size=0.2, shuffle=False)
+a_train, a_test = train_test_split(a,test_size=0.2,random_state=0)
 print(a_train)
-# [0 1 2 3 4 5 6 7]
+print(a_test)
+#出力
-print(a_test)
+[4, 9, 1, 6, 7, 3, 0, 5]
-# [8 9]
+[2, 8]
 ```
 ### 試したこと

317 514 1590

誤字

2021/08/11 02:34

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -38,7 +38,7 @@
 ```
 ### 試したこと
-５分割に関しては[以下のコード](https://qiita.com/LicaOka/items/c6725aa8961df9332cc7をもとに分割を試しましたが、この場合、訓練とテスト用データの割合が指定できず、indexを指定するには別のエラーも発生してしまっている状態です。
+５分割に関しては[以下のコード](https://qiita.com/LicaOka/items/c6725aa8961df9332cc7)をもとに分割を試しましたが、この場合、訓練とテスト用データの割合が指定できず、indexを指定するには別のエラーも発生してしまっている状態です。
 ```
 def cross_validate(session, split_size=5):
   results = []

317 514 1590

試したことの追記

2021/08/11 02:27

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -35,4 +35,60 @@
 print(a_test)
 # [8 9]
+```
+### 試したこと
+５分割に関しては[以下のコード](https://qiita.com/LicaOka/items/c6725aa8961df9332cc7をもとに分割を試しましたが、この場合、訓練とテスト用データの割合が指定できず、indexを指定するには別のエラーも発生してしまっている状態です。
+```
+def cross_validate(session, split_size=5):
+  results = []
+  kf = KFold(n_splits=split_size)
+  for train_idx, val_idx in kf.split(train_x_all, train_y_all):
+    train_x = train_x_all[train_idx]
+    train_y = train_y_all[train_idx]
+    val_x = train_x_all[val_idx]
+    val_y = train_y_all[val_idx]
+    run_train(session, train_x, train_y)
+    results.append(session.run(accuracy, feed_dict={x: val_x, y: val_y}))
+  return results
+````
+実行コード
+```
+from sklearn.model_selection import KFold
+def cross_validate(nums, nums_str, split_size=5):
+  results = []
+  kf = KFold(n_splits=split_size)
+  for train_idx, val_idx in kf.split(nums, nums_str):
+    print(train_idx, val_idx)
+    print(nums[1])
+    train_x = nums[train_idx]
+    train_y = nums_str[train_idx]
+    val_x = nums[val_idx]
+    val_y = nums_str[val_idx]
+cross_validate([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'], split_size=5)
+```
+エラー
+```
+[2 3 4 5 6 7 8 9] [0 1]
+1
+---------------------------------------------------------------------------
+TypeError                                 Traceback (most recent call last)
+in <module>()
+     14     val_y = nums_str[val_idx]
+     15
+---> 16 cross_validate([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'], split_size=5)
+in cross_validate(nums, nums_str, split_size)
+      9     print(train_idx, val_idx)
+     10     print(nums[1])
+---> 11     train_x = nums[train_idx]
+     12     train_y = nums_str[train_idx]
+     13     val_x = nums[val_idx]
+TypeError: only integer scalar arrays can be converted to a scalar index
 ```

317 514 1590

強調

2021/08/11 02:26

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,6 +1,6 @@
 ### 前提・実現したいこと
-scikit-learnでデータ分割するときに、ランダムではなく先頭から順番に分割した後で、
+`scikit-learn`でデータ分割するときに、ランダムではなく先頭から順番に分割した後で、
 そのデータ分割結果を指定して、検証データ・訓練データとしたいです。
 [0]~[4]までそれぞれの分割結果をindexで指定して確認しようとしています。

317 514 1590

やりたいことの補足

2021/08/11 01:59

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,9 +1,12 @@
 ### 前提・実現したいこと
-scikit-learnでデータ分割するときに、ランダムではなく先頭から順番に分割した後で、そのデータ分割結果を指定して、検証データ・訓練データとしたいです。
+scikit-learnでデータ分割するときに、ランダムではなく先頭から順番に分割した後で、
+そのデータ分割結果を指定して、検証データ・訓練データとしたいです。
 [0]~[4]までそれぞれの分割結果をindexで指定して確認しようとしています。
+**つまり、順番は固定して分割したデータを、区画ごとに参照したいです。**
 例
 ```
 dataset[0] = {'train':[0 1 2 3 4 5 6 7], 'test':[8 9]}

317 514 1590

例の追加

2021/08/11 01:58

投稿

退会済みユーザー

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,14 +2,25 @@
 scikit-learnでデータ分割するときに、ランダムではなく先頭から順番に分割した後で、そのデータ分割結果を指定して、検証データ・訓練データとしたいです。
-以下、のように[0]~[4]までそれぞれの分割結果をindexで指定しようとしています。
+[0]~[4]までそれぞれの分割結果をindexで指定して確認しようとしています。
+例
+```
+dataset[0] = {'train':[0 1 2 3 4 5 6 7], 'test':[8 9]}
+dataset[1] = {'train':[2 3 4 5 6 7 8 9], 'test':[0 1]}
+dataset[2]
+dataset[3]
+dataset[4]
+```
 図の出典元：Qiita記事「[比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです](https://qiita.com/LicaOka/items/c6725aa8961df9332cc7)」
 ![イメージ説明](5eb8793694b79a2fb351817b872cd046.png)
 ### 発生している問題・エラーメッセージ
 現在のコードだとランダムは回避できているのですが、どこに配列番号が格納されているのか、また５回と指定してその候補（例えば、train[2 3 4 5 6 7 8 9] test[0 1]）を確認できない状態です。
 ### 該当のソースコード
 ```python

317 514 1590