回答編集履歴
1
edit
answer
CHANGED
|
@@ -3,4 +3,25 @@
|
|
|
3
3
|
|
|
4
4
|
辞書で隣り合うキーがハッシュ計算後衝突するのも直感的には合わないので運のような…
|
|
5
5
|
|
|
6
|
-
速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
|
|
6
|
+
速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
|
|
7
|
+
|
|
8
|
+
---
|
|
9
|
+
|
|
10
|
+
例えば以下のような文字列で試してみるとわかりやすいです。
|
|
11
|
+
```python
|
|
12
|
+
from sklearn.feature_extraction import FeatureHasher
|
|
13
|
+
|
|
14
|
+
conv = FeatureHasher(n_features=2, input_type='string', alternate_sign=False)
|
|
15
|
+
|
|
16
|
+
print(conv.transform(['f']))
|
|
17
|
+
print('-')
|
|
18
|
+
print(conv.transform(['ff']))
|
|
19
|
+
print('-')
|
|
20
|
+
print(conv.transform(['f'*5]))
|
|
21
|
+
print('-')
|
|
22
|
+
print(conv.transform(['fo']))
|
|
23
|
+
print('-')
|
|
24
|
+
print(conv.transform(['fou']))
|
|
25
|
+
print('-')
|
|
26
|
+
print(conv.transform(['four']))
|
|
27
|
+
```
|