質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.62%

  • Python 3.x

    5853questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    545questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Scikit-Learnでのデータ分析の前処理について

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 194

flow_engine

score 1

 前提・実現したいこと

scikit-learnを用いたデータ分析の前処理
私は現在scikit-learnを用いてデータ分析の学習をしています。現在はSIGNATEのプラクティスコンペティションで学習しています。
元データのサイト
元データは規約上貼れないことをお許しください。
また、この問題は分類問題です。

 発生している問題・エラーメッセージ

現在はニューラルネットワークを用いて学習させたところ0.7前後の精度となっています。そこで、前処理としてpreprocessingクラスにあるMinMaxScalerとStandaerdScalerを使用したところ精度が0.7を割る値になりました。

 該当のソースコード

import pandas as pd
import sklearn

#csvからの読み込み
train = pd.read_csv('./train.csv', index_col=0)
test = pd.read_csv('./test.csv',  index_col=0)

#欠損値を文字列からNoneへと変換
dict_none = {'unknown': None}
train = train.replace(dict_none)
test = test.replace(dict_none)

#テストデータに対するダミー変数
dummy = pd.get_dummies(train["job"], prefix="job")
train = train.drop("job", axis=1).join(dummy)
dummies = pd.get_dummies(train["marital"], prefix="marital")
train = train.drop("marital", axis=1).join(dummies)
dummies = pd.get_dummies(train["education"], prefix="edu")
train = train.drop("education", axis=1).join(dummies)
dummies = pd.get_dummies(train["default"], prefix="default")
train = train.drop("default", axis=1).join(dummies)
dummies = pd.get_dummies(train["housing"], prefix="housing")
train = train.drop("housing", axis=1).join(dummies)
dummies = pd.get_dummies(train["loan"], prefix="loan")
train = train.drop("loan", axis=1).join(dummies)
dummies = pd.get_dummies(train["contact"], prefix="contact")
train = train.drop("contact", axis=1).join(dummies)
dummies = pd.get_dummies(train["poutcome"], prefix="poutcome")
train = train.drop("poutcome", axis=1).join(dummies)
dict_week = {"jan": 1, "feb": 2, "mar": 3, "apr": 4, "may": 5, "jun": 6, "jul": 7, "aug": 8, "sep": 9, "oct": 10, "dec": 11, "nov": 12}
train["month"] = train["month"].replace(dict_week)

#テストデータに対するダミー変数
dummy = pd.get_dummies(test["job"], prefix="job")
test = test.drop("job", axis=1).join(dummy)
dummies = pd.get_dummies(test["marital"], prefix="marital")
test = test.drop("marital", axis=1).join(dummies)
dummies = pd.get_dummies(test["education"], prefix="edu")
test = test.drop("education", axis=1).join(dummies)
dummies = pd.get_dummies(test["default"], prefix="default")
test = test.drop("default", axis=1).join(dummies)
dummies = pd.get_dummies(test["housing"], prefix="housing")
test = test.drop("housing", axis=1).join(dummies)
dummies = pd.get_dummies(test["loan"], prefix="loan")
test = test.drop("loan", axis=1).join(dummies)
dummies = pd.get_dummies(test["contact"], prefix="contact")
test = test.drop("contact", axis=1).join(dummies)
dummies = pd.get_dummies(test["poutcome"], prefix="poutcome")
test = test.drop("poutcome", axis=1).join(dummies)
dict_week = {"jan": 1, "feb": 2, "mar": 3, "apr": 4, "may": 5, "jun": 6, "jul": 7, "aug": 8, "sep": 9, "oct": 10, "dec": 11, "nov": 12}
test["month"] = test["month"].replace(dict_week)

from sklearn.preprocessing import MinMaxScaler
ms = MinMaxScaler()

X = ms.fit_transform(train.drop('y', axis=1))
y = train['y'].values

from sklearn.neural_network import MLPClassifier
clf = MLPClassifier()
clf.fit(X, y)

X = ms.fit_transform(test)
p = clf.predict(X)
pd.DataFrame(p, index=test.index).to_csv('./output.csv', header=False)

 試したこと

まずはじめに文字列の含まれる列を全てダミー変数へと置き換えました。その精度は0.7前後でした。そこで、Yes,Noの2値化出来る列を0,1に置き換えMinMaxScalerメソッドを施したところ精度は0.7を割り0.68前後となりました。
次に元データでは欠損値が'unknown'なのでNoneへと変換し欠損値をわかりやすくしました。その後、dropnaメソッドを用いて欠損値のある行を全て消去したところ精度は0.7未満となりました。
このように前処理を施すとどんどん精度が下がる結果となってしまっています。

 補足情報(FW/ツールのバージョンなど)

Python 3.6.5
Scikit-Learn 0.19.1
Pandas 0.22.0

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

「前処理すると性能が落ちる」というのは原理的にありえないほどの話ではないので、もしかしたら単に「そういう事例だった」という話かもしれませんが、

とりあえず掲示されているプログラムにはミスがあります。

X = ms.fit_transform(train.drop('y', axis=1))  # trainのスケールをここでms内に保持している
y = train['y'].values

from sklearn.neural_network import MLPClassifier
clf = MLPClassifier()
clf.fit(X, y)

X = ms.fit_transform(test)  # fit_transformしたら保持したtrainのスケールが消えてtestだけのスケールになる(ので台無しになる)

testの方では単にtransformとするのが正解です。

なお、こういう場合、Pipelineを活用するとラクかつミスしないで書けるのでおすすめです。

sklearn.pipeline.Pipeline — scikit-learn 0.19.1 documentation

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/05/13 12:00

    早朝から回答ありがとうございます。
    回答の通り関数に対する勉強が不足していました。とりあえず結果だけを求めてしまいfit_transformすれば良いと考えていました。pipelineについてもしっかりと勉強させていただきます。

    プログラムの結果ですが、fit_transformからtransformに変更いたしましたところ、精度の向上は起きませんでした。検証用データの一部をテストデータとして扱ったところ0.89と周りの人の結果よりも低いため、前処理が足りないと考えられるため頑張りたいと思います。

    回答していただきありがとうございました。

    キャンセル

  • 2018/05/13 12:25

    前処理どうこうより、 MLPClassifierをデフォルトパラメタで使っているのがかなり不利な気がします。ちゃんと学習させられていないのではないでしょうか。
    特に縛りがなければ、RandomForestClassifierなどがそこそこ手軽に性能を出せておすすめです。パラメタは細かくチューニングしなくてもたいていなんとかなりますが、n_estimatorを1000以上にすることと、並列化のオプションは計算速度のために指定してください(n_jobs=-1とすれば良い)

    キャンセル

  • 2018/05/14 00:32

    回答ありがとうございます。Scikit-Learnの良いところであるライブラリの切り替えが容易なため分類問題に使用できる全ての手法を試しましたところニューラルネットワークが一番良い精度のため使用していました。メソッドについて調べず勉強もせず使用していたため引数に何を入れると良いのか調べていなかったためこのような不可解なコードとなってしまい申し訳ありません。
    今回の問題に関しましてはpredictからpredict_probaへと変更しましたところ精度の良い結果となりました。出題サイトの求める回答を見ていなく0,1の結果で出力していたことが原因であったとされます。
    お忙しい中回答していただいたにも関わらずこのような幼稚な間違いをしていたことをお許しください。回答していただきありがとうございました。アドバイスを肝に銘じ学習に励みたいと思います。

    キャンセル

0

結果としては確率を出力すべき問題でした。
そこを0,1の口座を開設したかどうかのみ出力していたため精度が上がることはなかった原因となっていました。
読んでくださった方々、回答をくださったhayataka様、幼稚な間違いで申し訳ありませんでした。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.62%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    5853questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    545questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。