質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

3回答

1789閲覧

機械学習 文字列を目的変数とした準備方法について

john_doe_

総合スコア354

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/11/09 11:28

|結果|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|参加|18|男性|
|欠席|22|女性|
|参加|33|男性|
|予約なし|40|不明|

上記のようなデータフレームについて、
説明変数:「年齢」以降の全ての列、
目的変数:「結果」、
として「参加」「欠席」「予約なし」を予測する識別器を準備したいと考えています。

# get_dummies()関数でダミー変数に変換 result = pd.ge_dummies(pf['結果'] pd = pd.join(result)

変換後のデータフレーム
参加|欠席|予約なし|年齢|性別|・・・・・・・・
|:--|:--:|--:|
|1|0|0|18|男性|
|0|1|0|22|女性|
|1|0|0|33|男性|
|0|0|1|40|不明|

上記のように文字列をダミー変数化させてしまうと、目的変数が3つにわかれてしまうため、
目的変数を3つにわけて識別器で学習しなければいけないのでしょうか?

factorize()関数を利用して整数値化させてしまえば、1列に「0,1,2」と表示できますが、
「参加」と「予約なし」の距離は、「参加」と「欠席」の距離の2倍という関係ではないので、
誤った処理になってしまうと感じております。

稚拙な質問となるかと存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

実装の問題なので、アルゴリズムどうこうというよりは「何で処理するか」を考慮して取り扱いを決めると良いのではないでしょうか。

たとえばscikit-learnのモデルは判別であれば原則0,1,2,...のようなラベルを受け付けることになっています。適切な尺度で取り扱われなくて問題が発生する……ということはなく、適切に処理されます(インターフェースを共通化して中身を考えなくても扱えるようにしている)(ただし多くのモデルはその変換すら不要で、「参加」「欠席」「予約なし」のまま入れても動く)。

深層学習フレームワークであればそれなりのやり方がありますし(大抵は数行の明示的なone-hot変換のコードを書きます)。

また、大切なのはうかつにpandasの枠組みで処理しないほうが良いこともある、ということです。sklearnに渡すのであればsklearnの側で、kerasに渡すのであればkerasの側で変換を行った方が何かと不都合が少ないということです。

投稿2019/11/10 18:54

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

john_doe_

2019/11/10 19:06

ご教示いただきましてありがとうございます。 scikit-learnのモデルを利用することを考えており、sklearn側で処理することを試してみたいと思います。
guest

0

ベストアンサー

機械学習といっても様々な手法が存在します。

例えば、k近傍法のように、目的変数の3つの値をただのラベルとして扱うものであれば、0,1,2としてしまって問題ありません。
なぜなら、結果が各値を距離として扱うようなアルゴリズムではないからです。

いっぽうで、ディープラーニングをはじめとする、出力を数値(確率や距離)として出すアルゴリズムでは、ご懸念のように、「参加」と「予約なし」と「欠席」のそれぞれの距離関係は平等であるという前提を無視した結果が出力されてしまいます。
この場合、一般には、ご推察通り、3つのダミー変数に変換します。
このとき、3回に分けて学習をする必要があるとお考えのようですが、一般にディープラーニングをはじめ、結果を数値で出力するものの多くは、出力値を複数に設定できます。
ダミー変数が3つであれば、3つの確率を出力させ、この中で最も高い確率のものに分類するというのが定石です。

投稿2019/11/10 04:24

qax

総合スコア622

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

john_doe_

2019/11/10 18:48

稚拙な質問にもかかわらず、丁寧にご教示いただきまして誠にありがとうございます。
guest

0

目的変数はfactorize()関数の「0,1,2」で構いません。
この場合の数値は名義尺度と呼ばれるもので、比例関係は考えなくてよい(というより考えてはいけない)からです。

投稿2019/11/09 12:03

NCC1701

総合スコア1680

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

john_doe_

2019/11/09 15:26 編集

稚拙な質問にもかかわらず、ご親切にご教示いただきましてありがとうございました。 悩みが解決できて大変助かりました。 説明変数についても同様にfactorize()関数で処理してもよろしいのでしょうか?
NCC1701

2019/11/10 01:20

説明変数は、一律にこれで処理するということにはなりません。その変数の解釈によるからです。統計学上、変数は名義尺度、順序尺度、間隔尺度、比例尺度に分けて考えます(この分類は調べてください)。なので、その尺度によりそのままだったり、ダミー変数化したりと処理することになります。 例に上がっている説明変数だと、性別は名義尺度なのでダミー変数化するでしょうが、年齢は扱い方によります。年齢差や比が重視されるならそのままでしょうが、マーケティングなどのようにF1層とかM2層とかで扱うなら名義尺度(もしくは順序尺度)でダミー変数化することになるでしょう。
john_doe_

2019/11/10 18:45

勉強で恐縮です。尺度の分類について学習したいと思います。 大変助かりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問