質問するログイン新規登録

質問編集履歴

2

内容の修正

2021/01/13 05:45

投稿

taraco_040103
taraco_040103

スコア4

title CHANGED
File without changes
body CHANGED
@@ -1,5 +1,5 @@
1
- 現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度.
1
+ 現在,gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度を出力しようとしてます
2
- ただ,モデルの学習において,日本語などの単語ではなく以下のようなドメインを単語としWord2Vecに学習させようとしています.
2
+ ただ,モデルの学習におけるコーパスの作成で,日本語などの単語ではなく以下のようなものを単語とし,コーパスをWord2Vecに学習させてモデルを作成しようとしています.
3
3
  (domain.txtの中身としておく.一行ごとにドメイン名が記述されている)
4
4
 
5
5
  gmailsecurityteam.com
@@ -15,4 +15,4 @@
15
15
  jump1ng.net
16
16
  ...
17
17
 
18
- 如何せんword2vecに関するモデル学習日本語などの単語についてのことしかネットに掲載されず,質問させていただきました.
18
+ 上記のような単語で,モデル作成可能でょうネットなどを見ていると形態素解析よっ空白で区切れている必要があるなどと書いてあったりするので質問させていただきました.

1

内容の修正

2021/01/13 05:45

投稿

taraco_040103
taraco_040103

スコア4

title CHANGED
File without changes
body CHANGED
@@ -1,6 +1,6 @@
1
- 現在,gensimのword2vecを用いて特徴量の出を行うとしています
1
+ 現在,gensimのword2vecを用いて特徴量の出を行うで単語同士の類似度
2
- ただ,モデルの学習において,単語ではなく以下のようなドメインを用いて学習を行うとしています
2
+ ただ,モデルの学習において,日本語などの単語ではなく以下のようなドメインを単語としWord2Vecに学習させようとしています
3
- (domain.txtの中身としておく)
3
+ (domain.txtの中身としておく.一行ごとにドメイン名が記述されている)
4
4
 
5
5
  gmailsecurityteam.com
6
6
  goodbytoname.com
@@ -15,10 +15,4 @@
15
15
  jump1ng.net
16
16
  ...
17
17
 
18
- このような場合は,形態素解析などはせずに以下のように行えば良いのでしょうか?
19
- from gensim.models import word2vec
20
- domai = word2vec.LineSentence("domain.txt")
21
- model = word2vec.Word2Vec(domain,size=100)
22
- model.save("domain.model")
23
-
24
- 如何せん,word2vecに関するモデル学習は単語についてのことしかネットに掲載されておらず,質問させていただきました.
18
+ 如何せん,word2vecに関するモデル学習は日本語などの単語についてのことしかネットに掲載されておらず,質問させていただきました.