質問するログイン新規登録

回答編集履歴

1

edit

2018/02/13 04:04

投稿

mkgrei
mkgrei

スコア8562

answer CHANGED
@@ -3,4 +3,25 @@
3
3
 
4
4
  辞書で隣り合うキーがハッシュ計算後衝突するのも直感的には合わないので運のような…
5
5
 
6
- 速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
6
+ 速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
7
+
8
+ ---
9
+
10
+ 例えば以下のような文字列で試してみるとわかりやすいです。
11
+ ```python
12
+ from sklearn.feature_extraction import FeatureHasher
13
+
14
+ conv = FeatureHasher(n_features=2, input_type='string', alternate_sign=False)
15
+
16
+ print(conv.transform(['f']))
17
+ print('-')
18
+ print(conv.transform(['ff']))
19
+ print('-')
20
+ print(conv.transform(['f'*5]))
21
+ print('-')
22
+ print(conv.transform(['fo']))
23
+ print('-')
24
+ print(conv.transform(['fou']))
25
+ print('-')
26
+ print(conv.transform(['four']))
27
+ ```