質問編集履歴
2
内容の修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,5 +1,5 @@
|
|
1
|
-
現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度.
|
1
|
+
現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度を出力しようとしてます.
|
2
|
-
ただ,モデルの学習にお
|
2
|
+
ただ,モデルの学習におけるコーパスの作成で,日本語などの単語ではなく以下のようなものを単語とし,コーパスをWord2Vecに学習させてモデルを作成しようとしています.
|
3
3
|
(domain.txtの中身としておく.一行ごとにドメイン名が記述されている)
|
4
4
|
|
5
5
|
gmailsecurityteam.com
|
@@ -15,4 +15,4 @@
|
|
15
15
|
jump1ng.net
|
16
16
|
...
|
17
17
|
|
18
|
-
|
18
|
+
上記のような単語で,モデル作成は可能でしょうか? ネットなどを見ていると形態素解析によって空白で区切られている必要があるなどと書いてあったりするので質問させていただきました.
|
1
内容の修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,6 +1,6 @@
|
|
1
|
-
現在,gensimのword2vecを用いて特徴量の
|
1
|
+
現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度.
|
2
|
-
ただ,モデルの学習において,単語ではなく以下のようなドメインを
|
2
|
+
ただ,モデルの学習において,日本語などの単語ではなく以下のようなドメインを単語としてWord2Vecに学習させようとしています.
|
3
|
-
(domain.txtの中身としておく)
|
3
|
+
(domain.txtの中身としておく.一行ごとにドメイン名が記述されている)
|
4
4
|
|
5
5
|
gmailsecurityteam.com
|
6
6
|
goodbytoname.com
|
@@ -15,10 +15,4 @@
|
|
15
15
|
jump1ng.net
|
16
16
|
...
|
17
17
|
|
18
|
-
このような場合は,形態素解析などはせずに以下のように行えば良いのでしょうか?
|
19
|
-
from gensim.models import word2vec
|
20
|
-
domai = word2vec.LineSentence("domain.txt")
|
21
|
-
model = word2vec.Word2Vec(domain,size=100)
|
22
|
-
model.save("domain.model")
|
23
|
-
|
24
|
-
如何せん,word2vecに関するモデル学習は単語についてのことしかネットに掲載されておらず,質問させていただきました.
|
18
|
+
如何せん,word2vecに関するモデル学習は日本語などの単語についてのことしかネットに掲載されておらず,質問させていただきました.
|