質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

解決済

1回答

8834閲覧

scikit-learnのLabelEncoderの仕組みについて

dal

総合スコア38

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

0クリップ

投稿2018/11/12 13:49

編集2018/11/13 03:49

scikit-learnのLabelEncoderに関する質問です。

####実行内容・疑問点

まず以下のようにしてLabelEncodingを行いました。( jupiter notebookを用いています。)

python

1from sklearn.preprocessing import LabelEncoder 2 3le = LabelEncoder() 4le.fit(["umi", "yama", "tokyo", "kyoto"]) 5print(le.transform(["yama"]) ) 6#出力結果=>[3] 7 8le = LabelEncoder() 9le.fit(["umi", "yama", "tokyo", "kyoto"]) 10print(le.transform(["yama"])) 11#出力結果=>[3]

ここで、1度目の出力の後、もう一度

le = LabelEncoder() le.fit(["umi", "yama", "tokyo", "kyoto"])

として、LabelEncoder()を定義し直し、再びfit()を行なっている訳ですが、le.transform(["yama"])の出力結果が1度目と等しくなります。

次に、

python

1le = LabelEncoder() 2le.fit(["umi", "yama", "tokyo", "kyoto"]) 3print(le.transform(["tokyo"])) 4#出力結果=>[1] 5 6le = LabelEncoder() 7le.fit(["umi", "yama", "tokyo", "kyoto"]) 8print(le.transform(["tokyo"])) 9#出力結果=>[1]

を行いましたが、やはりle.transform(["tokyo"])の出力結果が等しくなりました。

ここで、ラベル名が等しければ、LabelEncoder()を定義し直し、再度fit()を行なっても、出力結果が必ず等しくなるのかな?と思ったのです。

しかし、以下のコードを実行したところ、

python

1le = LabelEncoder() 2le.fit(["umi", "yama", "tokyo", "kyoto","mori"]) 3print(le.transform(["tokyo"])) 4#出力結果=>[2]

le.transform(["tokyo"])の出力が、[1]ではなく[2]になりました。
変更点は、fit()に用いるラベルを1つ追加したことです。

さらに、以下も実行しました。

python

1le = LabelEncoder() 2le.fit(["umi", "yama", "tokyo", "kyoto","mori","mori","mori","mori"]) 3print(le.transform(["tokyo"])) 4#出力結果=>[2]

今度は1つ前の出力結果と等しくなります。一体どういう仕組みでラベルの数値化が行われているのか、とても気になっています。

####質問
LabelEncoderを用いた際、ラベル名を数値に変換する際にどういったルールがあるのか、詳しい方がいたら教えていただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ご存知かどうかわかりませんが、LabelEncoder.classes_でfit済みのエンコーダに対し、元のラベルと変換後のラベルを確認できます。配列のindexが変換後のラベルに該当します。

python

1>>> from sklearn.preprocessing import LabelEncoder 2>>> le = LabelEncoder() 3>>> le.fit(["umi", "yama", "tokyo", "kyoto"]) 4LabelEncoder() 5>>> le.classes_ 6array(['kyoto', 'tokyo', 'umi', 'yama'], dtype='<U5')

辞書式順でソートされているのでしょうか。そんな雰囲気です。

python

1>>> le.fit(["acb", "abc", "aa", "bcd", "acb", "ade"]) 2LabelEncoder() 3>>> le.classes_ 4array(['aa', 'abc', 'acb', 'ade', 'bcd'], dtype='<U3')

ドキュメントを軽く見た感じ、これに関して説明はなかったのですが、恐らく重複を除去してソートし、そのindexを変換後のラベルとするという動作でしょう。

sklearn.preprocessing.LabelEncoder — scikit-learn 0.20.0 documentation

投稿2018/11/12 21:08

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

dal

2018/11/15 12:42

le.classes_を試したところ、おっしゃる通りでした。スッキリしました! ご回答本当にありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問