質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.80%

sckit-learnにおけるTypeError: Singleton array %r cannot be considered a valid collection.

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 3,984

score 13

前提・実現したいこと

約5万個の30*300のデータに対し、sklearn.ensembleRandomForestClassfierを用いて二値分類の層化k分割交差検証を行いたい。

発生している問題・エラーメッセージ

最終的にTypeError: Singleton array %r cannot be considered a valid collection.というエラーが表示されます。このエラーが出なくなることが第一目標です。
以下エラー全文です(見やすさのため、1つのエラーを小分けにして表示しています)。

-------------------------------------------------
TypeError       Traceback (most recent call last)
<ipython-input-762-10ee8ca88fe0> in <module>
      3 from sklearn.model_selection import cross_val_score
      4 rfc = RFC(verbose=True,n_jobs=-1,random_state=1)
----> 5 cvscore = cross_val_score(rfc, x, y, cv=StratifiedKFold)
~/.pyenv/versions/3.6.0/envs/mecab/lib/python3.6/site-packages/sklearn/model_selection/_validation.py in cross_val_score(estimator, X, y, groups, scoring, cv, n_jobs, verbose, fit_params, pre_dispatch, error_score)
    388                                 fit_params=fit_params,
    389                                 pre_dispatch=pre_dispatch,
--> 390                                 error_score=error_score)
    391     return cv_results['test_score']
    392 
~/.pyenv/versions/3.6.0/envs/mecab/lib/python3.6/site-packages/sklearn/model_selection/_validation.py in cross_validate(estimator, X, y, groups, scoring, cv, n_jobs, verbose, fit_params, pre_dispatch, return_train_score, return_estimator, error_score)
    234             return_times=True, return_estimator=return_estimator,
    235             error_score=error_score)
--> 236         for train, test in cv.split(X, y, groups))
    237 
    238     zipped_scores = list(zip(*scores))
~/.pyenv/versions/3.6.0/envs/mecab/lib/python3.6/site-packages/sklearn/model_selection/_split.py in split(self, X, y, groups)
    728         to an integer.
    729         """
--> 730         y = check_array(y, ensure_2d=False, dtype=None)
    731         return super().split(X, y, groups)
    732 
~/.pyenv/versions/3.6.0/envs/mecab/lib/python3.6/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
    579 
    580     if ensure_min_samples > 0:
--> 581         n_samples = _num_samples(array)
    582         if n_samples < ensure_min_samples:
    583             raise ValueError("Found array with %d sample(s) (shape=%s) while a"
~/.pyenv/versions/3.6.0/envs/mecab/lib/python3.6/site-packages/sklearn/utils/validation.py in _num_samples(x)
    150         if len(x.shape) == 0:
    151             raise TypeError("Singleton array %r cannot be considered"
--> 152                             " a valid collection." % x)
    153         # Check that shape is returning an integer or default to len
    154         # Dask dataframes may not return numeric shape[0] value

TypeError: Singleton array array(None, dtype=object) cannot be considered a valid collection.

上記のエラーから、cross_val_scoreの第二引数であるyの要素の中身に問題があると判断しました。
そこで中身がラベル(0,1)以外の要素を調べましたが、そのような要素は存在しませんでした。

該当のソースコード

from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
rfc = RFC(verbose=True,n_jobs=-1,random_state=1)
cvscore = cross_val_score(rfc, x, y, cv=StratifiedKFold)


x: 入力データ。x.shape=(48366, 30, 300)のndarray。
y: ラベルデータ。y.shape=(48366,)のndarray。
どちらもPandasDataFrameのカラムから生成したデータです。

xの作り方

# xの形を(48366,1) から (48366, 30, 300) に変える
x = df.values[:,2:]
xl = [x[i][0] for i in range(len(x))]
x = np.array(xl)


yの作り方

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = df.values[:,:1]
y = le.fit_transform(y)

バージョン情報

Python==3.6.0
sckit-learn==0.22.1

どなたかご教授いただけたら幸いです。
「こうするのはどうだろう?」といった提案でも構いません。
よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

RandomForestClassifierfitの引数は、

Xarray-like or sparse matrix of shape (n_samples, n_features)

3.2.4.3.1. sklearn.ensemble.RandomForestClassifier — scikit-learn 0.22.1 documentation

と定められていて、(48366, 30, 300)の配列は渡すことが出来ません。

30, 300の部分が行列形式であることに特に本質的な意味がないのであれば、9000にflattenして動作させることは可能です。ただし、これだけ次元数が高いと通常はうまく動作しない、遅すぎて実用的ではないなどの問題があるので、先に特徴量選択を行うべきでしょう。

画像データであれば特徴量抽出などの前処理が必要ですが、そもそもランダムフォレストはそのようなデータに適していないので、画像処理に特化したモデルを用いたほうが良い結果がえらはれ

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/01/24 14:49

    丁寧な説明ありがとうございます。
    ドキュメントを参考にすることの大切さを改めて感じました。
    詳細を省いていましたが、この(30, 300)は単語の300次元の分散表現が30個並んだもので、
    これを二値分類しようとしています。
    そのため行列形式であることには単語として捉えるという意味があるので、CNNやRNNのモデルで扱うことを検討しようと思います。

    余談ですが、参考にしている論文(https://www.aclweb.org/anthology/D15-1284.pdf)にて、Word2Vecで文章の特徴量を作成しRandom Forestで分類を行っているというような記述があったため、同じことができないかなと考えたのですが、sklearnでの実装ではない可能性がありますね。

    長くなりましたが、改めて迅速なご回答ありがとうございました!

    キャンセル

  • 2020/01/24 15:22 編集

    どんな実装にしろ30*300行列を単語30つを個別に捉えるように使うことはランダムフォレストでは難しいでしょう。
    論文は読んでいませんが、word2vecだけでやるなら平均を取るとかする、もっと高度な解釈を行わないとできないようなタスクならシーケンスを扱えるモデル(RNN等)を使うのが常套手段です。その辺りを読み落としているのではないでしょうか。

    キャンセル

  • 2020/02/04 11:31

    私が読む限り、詳細な記述がなかったため、ベクトルの和だと受け取っていましたが、平均なども考えられますね。
    この分野についての知識を集めながら、改めて読み直そうと思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.80%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る