現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度を出力しようとしてます.
ただ,モデルの学習におけるコーパスの作成で,日本語などの単語ではなく以下のようなものを単語とし,コーパスをWord2Vecに学習させてモデルを作成しようとしています.
(domain.txtの中身としておく.一行ごとにドメイン名が記述されている)
gmailsecurityteam.com
goodbytoname.com
gzhueyuatex.com
hruner.com
hui-ain-apparel.tk
ice.ip64.net
interlogistics.com.vn
ivansaru.418.com1.ru
jad.fisbonline.com
jangasm.org
jump1ng.net
...
上記のような単語で,モデル作成は可能でしょうか? ネットなどを見ていると形態素解析によって空白で区切られている必要があるなどと書いてあったりするので質問させていただきました.
回答2件
あなたの回答
tips
プレビュー