質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

340閲覧

データの前処理でわからない部分

renren643

総合スコア279

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2017/12/01 11:16

参考にしたサイト(kaggle、[6]より)
上のサイトで、
次のようなデータフレームで、StandardScaler()を用いてデータを前処理しているのですが、
イメージ説明
なぜ「transf = df.Fare.reshape(-1,1)」のdf["Fare"]の部分だけtransfに代入されているのでしょうか?
fitさせたい対象が ['Fare','Age','Name_length']なら、
transf = df[col].reshape(-1,1)とすべきではないかと思いました。

from sklearn import preprocessing for col in ['Fare','Age','Name_length']: transf = df.Fare.reshape(-1,1) scaler = preprocessing.StandardScaler().fit(transf) df[col] = scaler.transform(transf)

また、「Name_length(名前の文字数)」の特徴量は乗客の生存に関係ないと思うのですが、
これを特徴量として加える理由はなんですか?

とりあえず数値化できるものはしておいた方がいいのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

仰る通りだと思います。
コードが誤っていると思いますね。
教科書でもちょくちょく間違えているので、自分の考えに自信も持つことも大事かと。

結局そのままモデルを作ると名前の長さが入っていないことになるので、精度に影響を出さないのではないでしょうか。

お金を持っている人の方が名前が長い可能性はありますが。

投稿2017/12/01 15:53

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問