機械学習に用いる学習データの作成中なのですが,カテゴリ変数をFeature Hashingによって次元削減してみようと思いました. ためしに,｢月｣のカテゴリ変数を12次元→8次元化することを考えました. ```python from sklearn.feature_extraction import FeatureHasher import pandas as pd ; import numpy as np #テストデータ test=["1","2","3","4","5","6","7","8","9","10","11","12"] test=pd.Series(test)#本番ではdfからスライスしたseriesを使用するため #ハッシュトリック FH=FeatureHasher(n_features=8,input_type="string") hashed = FH.fit_transform(test) ; hashed=hashed.toarray() #衝突検出 arr = len(hashed) uniqs = len(np.unique(hashed, axis=0)) print(arr,uniqs) #-->(12,10) ``` ↑の例だと衝突してしまうのですが,テストデータが↓のような例だとうまくいきます. ```python test=["one1","222","three3","444","five5","666","seven7","888","nine9","1010","eleven11","1212"] test=pd.Series(test) #中略# print(arr,uniqs) #-->(12,12) ``` 原因はなんなのでしょうか? 入力文字が短すぎ,形状が他の入力文字と似ているためにハッシュ関数?がうまく働いていないのでしょうか…?

sklearnのFeatureHasherの挙動について

機械学習に用いる学習データの作成中なのですが,カテゴリ変数をFeature Hashingによって次元削減してみようと思いました.
ためしに,｢月｣のカテゴリ変数を12次元→8次元化することを考えました.

python
1from sklearn.feature_extraction import FeatureHasher
2import pandas as pd ; import numpy as np
3#テストデータ
4test=["1","2","3","4","5","6","7","8","9","10","11","12"]
5test=pd.Series(test)#本番ではdfからスライスしたseriesを使用するため
6#ハッシュトリック
7FH=FeatureHasher(n_features=8,input_type="string")
8hashed = FH.fit_transform(test) ; hashed=hashed.toarray()
9#衝突検出
10arr = len(hashed)
11uniqs = len(np.unique(hashed, axis=0))
12print(arr,uniqs) #-->(12,10)

↑の例だと衝突してしまうのですが,テストデータが↓のような例だとうまくいきます.

python
1test=["one1","222","three3","444","five5","666","seven7","888","nine9","1010","eleven11","1212"]
2test=pd.Series(test)
3#中略#
4print(arr,uniqs) #-->(12,12)

原因はなんなのでしょうか?
入力文字が短すぎ,形状が他の入力文字と似ているためにハッシュ関数?がうまく働いていないのでしょうか…?

行動規範の内容に同意します

回答1件

ベストアンサー

ハッシュを使う限り衝突のリスクはいつもあるのではないでしょうか？
ソースコード見ている限り、衝突回避のための既出の記録や変換などはないようですし、たまたまだと思います。

辞書で隣り合うキーがハッシュ計算後衝突するのも直感的には合わないので運のような…

速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。

例えば以下のような文字列で試してみるとわかりやすいです。

python
1from sklearn.feature_extraction import FeatureHasher
2
3conv = FeatureHasher(n_features=2, input_type='string', alternate_sign=False)
4
5print(conv.transform(['f']))
6print('-')
7print(conv.transform(['ff']))
8print('-')
9print(conv.transform(['f'*5]))
10print('-')
11print(conv.transform(['fo']))
12print('-')
13print(conv.transform(['fou']))
14print('-')
15print(conv.transform(['four']))

投稿2018/02/12 11:34

編集2018/02/13 04:04

mkgrei

総合スコア8562

ddd34

2018/02/13 01:26

うーん…ハッシュの衝突可能性を否定するつもりはもちろんないんですが、32bit符号にそうそう簡単にぶつかられる筋合いもないんですよねやはり自分の使い方が間違ってるのかとか、関数自体にクセがあるのかとかを考えてしまいます色々試しているのですが 1 : STR型の数字ではなく普通の単語のような文字列を入力する 2 : 要素数とサンプル数が多い 3 : 変換前の要素次元と変換後の次元に無理がない(12→2とか) だとほぼ衝突せず、安定的に運用できるような感じがしてきましたが、経験則的な答えではなく、ここが○○だから☓☓、回避するには△△というような技術的な解答が欲しいところです内蔵されている符号化関数(murmurhash3)に起因するのかなあ…

mkgrei

2018/02/13 03:54

おっしゃるとおりですね。この程度のサイズでハッシュの衝突を考える前に、ハッシュ計算後の処理に注目すべきでした。 https://github.com/scikit-learn/scikit-learn/blob/a24c8b46/sklearn/feature_extraction/hashing.py#L19 https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/feature_extraction/_hashing.pyx 以上二点お読みになればすべてに納得行くかと思います。ハッシュ計算後にそれを用いて疎行列のインデックスと値を生成しています。ただ、その際にインプットの文字列の長さに応じて値がバラけていきます。長さが1の文字列を使うと、1つのハッシュ値に対してその後の操作が行われます。その際にインデックスと値の衝突がおきやすくなります。結論から言うと、文字列長さが一番重要で、十分に長い文字列に対しては衝突の確率が大きく下がることになります。

ddd34

2018/02/13 15:25

なるほど,よく分かりました. わざわざソースコードまで読んでいただいて,お手数おかけしましたいただいた解説とあわせて,自分もコードを読みながら理解を深めていきたいと思いますどうもありがとうございました

行動規範の内容に同意します