質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

受付中

RandomForestClassifier にデータを学習させられない

退会済みユーザー

退会済みユーザー

総合スコア0

Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

1回答

0評価

0クリップ

4674閲覧

投稿2017/08/26 15:04

編集2022/01/12 10:55

RandomForestClassifier にデータを学習させられないです。
http://qiita.com/suzumi/items/8ce18bc90c942663d1e6 を見ながら
Kaggleのタイタニックチャレンジを再現しています。
ランダムフォレストに入れて学習させるところで、

forest = RandomForestClassifier(n_estimators = 100) forest = forest.fit(xs,y) test_df = pd.read_csv("Desktop/data/test.csv", delimiter=',') test_df.replace("male",0).replace("female",1) test_df["Age"].fillna(df.Age.median(), inplace=True) test_df["FamilySize"] = df["SibSp"] + df["Parch"] + 1 test_df2 = test_df.drop(["Name", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked"], axis=1)

以下のようなエラーが出ました。

--------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-10-5cff55688b7b> in <module>() 1 forest = RandomForestClassifier(n_estimators = 100) ----> 2 forest = forest.fit(xs,y) 3 test_df = pd.read_csv("Desktop/data/test.csv", delimiter=',') 4 # test_df.Sex = df.Sex.replace(mapping) 5 test_df.replace("male",0).replace("female",1) /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/sklearn/ensemble/forest.py in fit(self, X, y, sample_weight) 245 """ 246 # Validate or convert input data --> 247 X = check_array(X, accept_sparse="csc", dtype=DTYPE) 248 y = check_array(y, accept_sparse='csc', ensure_2d=False, dtype=None) 249 if issparse(X): /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator) 380 force_all_finite) 381 else: --> 382 array = np.array(array, dtype=dtype, order=order, copy=copy) 383 384 if ensure_2d: ValueError: could not convert string to float: 'male'

また次の別の方法を使ったコードを試して見たのですが、

forest = RandomForestClassifier(n_estimators = 100) forest = forest.fit(xs,y) test_df = pd.read_csv("Desktop/data/test.csv", delimiter=',') test_df.Sex = df.Sex.replace(mapping) # test_df.replace("male",0).replace("female",1) test_df["Age"].fillna(df.Age.median(), inplace=True) test_df["FamilySize"] = df["SibSp"] + df["Parch"] + 1 test_df2 = test_df.drop(["Name", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked"], axis=1)

やはりこれもエラーが出ました。

--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-10-6963525c0470> in <module>() 2 forest = forest.fit(xs,y) 3 test_df = pd.read_csv("Desktop/data/test.csv", delimiter=',') ----> 4 test_df.Sex = df.Sex.replace(mapping) 5 # test_df.replace("male",0).replace("female",1) 6 test_df["Age"].fillna(df.Age.median(), inplace=True) /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/generic.py in replace(self, to_replace, value, inplace, limit, regex, method, axis) 3834 3835 return self.replace(to_replace, value, inplace=inplace, -> 3836 limit=limit, regex=regex) 3837 else: 3838 /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/generic.py in replace(self, to_replace, value, inplace, limit, regex, method, axis) 3883 dest_list=value, 3884 inplace=inplace, -> 3885 regex=regex) 3886 3887 else: # [NA, ''] -> 0 /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/internals.py in replace_list(self, src_list, dest_list, inplace, regex, mgr) 3257 return block, val 3258 -> 3259 masks = [comp(s) for i, s in enumerate(src_list)] 3260 3261 result_blocks = [] /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/internals.py in <listcomp>(.0) 3257 return block, val 3258 -> 3259 masks = [comp(s) for i, s in enumerate(src_list)] 3260 3261 result_blocks = [] /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/internals.py in comp(s) 3245 if isnull(s): 3246 return isnull(values) -> 3247 return _maybe_compare(values, getattr(s, 'asm8', s), operator.eq) 3248 3249 def _cast_scalar(block, scalar): /Users/XXX/anaconda/envs/py36/lib/python3.6/site-packages/pandas/core/internals.py in _maybe_compare(a, b, op) 4617 type_names[1] = 'ndarray(dtype=%s)' % b.dtype 4618 -> 4619 raise TypeError("Cannot compare types %r and %r" % tuple(type_names)) 4620 return result 4621 TypeError: Cannot compare types 'ndarray(dtype=int64)' and 'str' In [ ]:

なぜ最初のコードではstringがfloatに変換できないと言われ、
次のコードではndarray(dtype=int64)がstrに変換できないと言われるのでしょうか?どう直せば良いのでしょうか?
ちなみにRandomForestClassifier以前のコードは以下のようになっています。

# coding: utf-8 # In[1]: import pandas as pd import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestClassifier get_ipython().magic('matplotlib inline') # In[2]: df = pd.read_csv("Desktop/data/train.csv", delimiter=',') print(df.head()) print(df.columns) # In[3]: mapping = {'male' : 0, 'female' : 1} df.Sex = df.Sex.replace(mapping) print(df.Sex) df.replace("male",0).replace("female",1) # In[4]: df["Age"].fillna(df.Age.median(),inplace=True) # In[5]: split_data = [] for survived in [0,1]: split_data.append(df[df.Survived==survived]) temp = [i["Pclass"].dropna() for i in split_data] plt.hist(temp,histtype="barstacked",bins=3) # In[6]: temp = [i["Age"].dropna() for i in split_data] plt.hist(temp, histtype="barstacked", bins=16) # In[7]: df["FamilySize"] = df["SibSp"] + df["Parch"] + 1 df2 = df.drop(["Name", "SibSp", "Parch", "Ticket", "Fare", "Cabin", "Embarked"], axis=1) # In[8]: df2.head(10) # In[9]: train_data = df2.values xs = train_data[:, 2:] # Pclass以降の変数 y = train_data[:, 1] # 正解データ

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。