回答率: 85.30%

質問するログイン新規登録

トップに関する質問 word2vecにおける特徴量の抽出

編集履歴

質問編集履歴

2

内容の修正

2021/01/13 05:45

投稿

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,5 @@
-現在，gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度．
+現在，gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度を出力しようとしてます．
-ただ，モデルの学習において，日本語などの単語ではなく以下のようなドメインを単語としてWord2Vecに学習させようとしています．
+ただ，モデルの学習におけるコーパスの作成で，日本語などの単語ではなく以下のようなものを単語とし，コーパスをWord2Vecに学習させてモデルを作成しようとしています．
 (domain.txtの中身としておく．一行ごとにドメイン名が記述されている)
 gmailsecurityteam.com
@@ -15,4 +15,4 @@
 jump1ng.net
 ...
-如何せん，word2vecに関するモデル学習は日本語などの単語についてのことしかネットに掲載されておらず，質問させていただきました．
+上記のような単語で，モデル作成は可能でしょうか？ ネットなどを見ていると形態素解析によって空白で区切られている必要があるなどと書いてあったりするので質問させていただきました．

1

内容の修正

2021/01/13 05:45

投稿

スコア4

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,6 +1,6 @@
-現在，gensimのword2vecを用いて特徴量の抽出を行うとしています．
+現在，gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度．
-ただ，モデルの学習において，単語ではなく以下のようなドメインを用いて学習を行うとしています
+ただ，モデルの学習において，日本語などの単語ではなく以下のようなドメインを単語としてWord2Vecに学習させようとしています．
-(domain.txtの中身としておく)
+(domain.txtの中身としておく．一行ごとにドメイン名が記述されている)
 gmailsecurityteam.com
 goodbytoname.com
@@ -15,10 +15,4 @@
 jump1ng.net
 ...
-このような場合は，形態素解析などはせずに以下のように行えば良いのでしょうか？
-from gensim.models import word2vec
-domai = word2vec.LineSentence("domain.txt")
-model = word2vec.Word2Vec(domain,size=100)
-model.save("domain.model")
-如何せん，word2vecに関するモデル学習は単語についてのことしかネットに掲載されておらず，質問させていただきました．
+如何せん，word2vecに関するモデル学習は日本語などの単語についてのことしかネットに掲載されておらず，質問させていただきました．