質問編集履歴
1
csvファイルの代わりとなる図の添付、各コードの追加掲載
    
        title	
    CHANGED
    
    | 
            File without changes
         | 
    
        body	
    CHANGED
    
    | @@ -10,7 +10,19 @@ | |
| 10 10 | 
             
            y.shape #(20,)
         | 
| 11 11 | 
             
            #X, yともにバイナリ
         | 
| 12 12 | 
             
            ```
         | 
| 13 | 
            +
            ファイルの載せ方がわからなかったので図を載せます。????
         | 
| 14 | 
            +
            X????
         | 
| 15 | 
            +
            
         | 
| 13 16 |  | 
| 17 | 
            +
            y????
         | 
| 18 | 
            +
            
         | 
| 19 | 
            +
             | 
| 20 | 
            +
            ### エラー発生コード
         | 
| 21 | 
            +
            ```python
         | 
| 22 | 
            +
            selector = SelectKBest(score_func=f_regression, k=num_select)
         | 
| 23 | 
            +
            selector.fit(X, y)
         | 
| 24 | 
            +
            ```
         | 
| 25 | 
            +
             | 
| 14 26 | 
             
            ### 該当エラー
         | 
| 15 27 | 
             
            ```
         | 
| 16 28 | 
             
            /usr/local/Caskroom/miniconda/base/lib/python3.7/site-packages/sklearn/feature_selection/univariate_selection.py in fit(self, X, y)
         | 
| @@ -43,6 +55,17 @@ | |
| 43 55 | 
             
            ```
         | 
| 44 56 | 
             
            も書くことにしましたが、すると、"typeはdではなくlでないといけない"と、更にエラーが発生しました。
         | 
| 45 57 |  | 
| 58 | 
            +
            ちなみに、特徴量の分散や同じ特徴量が存在するのかを確認してみたところ、
         | 
| 59 | 
            +
            ```python
         | 
| 60 | 
            +
            #特徴量の分散や同じ特徴量が存在するのかを確認
         | 
| 61 | 
            +
            from sklearn.feature_selection import VarianceThreshold
         | 
| 62 | 
            +
            sel = VarianceThreshold(threshold=0)
         | 
| 63 | 
            +
            sel.fit(X)
         | 
| 46 64 |  | 
| 65 | 
            +
            # get_supportで保持するデータのみをTrue値、そうでないものはFalse値を返します
         | 
| 66 | 
            +
            print(sum(sel.get_support())) #20
         | 
| 67 | 
            +
            ```
         | 
| 68 | 
            +
            となり、同じ特徴量は存在しないことが確認できています。
         | 
| 69 | 
            +
             | 
| 47 70 | 
             
            ### 謝辞
         | 
| 48 71 | 
             
            自分では埒が明かないように感じ、今回質問させていただきました。どうかよろしくお願いいたします。
         | 
