回答編集履歴

edit

2018/02/13 04:04

投稿

スコア8562

answer CHANGED Viewed

@@ -3,4 +3,25 @@
 辞書で隣り合うキーがハッシュ計算後衝突するのも直感的には合わないので運のような…
-速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
+速さなどを得ることが目的の犠牲なので、衝突が困るのであればOneHotEncodingすれば良い気がします。
+---
+例えば以下のような文字列で試してみるとわかりやすいです。
+```python
+from sklearn.feature_extraction import FeatureHasher
+conv = FeatureHasher(n_features=2, input_type='string', alternate_sign=False)
+print(conv.transform(['f']))
+print('-')
+print(conv.transform(['ff']))
+print('-')
+print(conv.transform(['f'*5]))
+print('-')
+print(conv.transform(['fo']))
+print('-')
+print(conv.transform(['fou']))
+print('-')
+print(conv.transform(['four']))
+```