scikit-learnのLabelEncoderの仕組みについて

Question

scikit-learnのLabelEncoderに関する質問です。

####実行内容・疑問点

まず以下のようにしてLabelEncodingを行いました。（ jupiter notebookを用いています。）

``` python
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["yama"]) )
#出力結果=>[3]

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["yama"]))
#出力結果=>[3]
```

ここで、１度目の出力の後、もう一度

```
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
```

として、LabelEncoder()を定義し直し、再びfit()を行なっている訳ですが、le.transform(["yama"])の出力結果が１度目と等しくなります。

次に、

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["tokyo"]))
#出力結果=>[1]

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["tokyo"]))
#出力結果=>[1]
```

を行いましたが、やはりle.transform(["tokyo"])の出力結果が等しくなりました。

ここで、ラベル名が等しければ、LabelEncoder()を定義し直し、再度fit()を行なっても、出力結果が必ず等しくなるのかな？と思ったのです。

しかし、以下のコードを実行したところ、

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto","mori"])
print(le.transform(["tokyo"])) 
#出力結果=>[2]
```

le.transform(["tokyo"])の出力が、[1]ではなく[2]になりました。
変更点は、fit()に用いるラベルを１つ追加したことです。

さらに、以下も実行しました。

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto","mori","mori","mori","mori"])
print(le.transform(["tokyo"])) 
#出力結果=>[2]
```

今度は１つ前の出力結果と等しくなります。一体どういう仕組みでラベルの数値化が行われているのか、とても気になっています。

####質問
LabelEncoderを用いた際、ラベル名を数値に変換する際にどういったルールがあるのか、詳しい方がいたら教えていただきたいです。

Accepted Answer

ご存知かどうかわかりませんが、LabelEncoder.classes_でfit済みのエンコーダに対し、元のラベルと変換後のラベルを確認できます。配列のindexが変換後のラベルに該当します。 ```python >>> from sklearn.preprocessing import LabelEncoder >>> le = LabelEncoder() >>> le.fit(["umi", "yama", "tokyo", "kyoto"]) LabelEncoder() >>> le.classes_ array(['kyoto', 'tokyo', 'umi', 'yama'], dtype='>> le.fit(["acb", "abc", "aa", "bcd", "acb", "ade"]) LabelEncoder() >>> le.classes_ array(['aa', 'abc', 'acb', 'ade', 'bcd'], dtype='

関連した質問