word2vecにおける特徴量の抽出

現在，gensimのword2vecを用いて特徴量の算出を行うことで単語同士の類似度を出力しようとしてます．
ただ，モデルの学習におけるコーパスの作成で，日本語などの単語ではなく以下のようなものを単語とし，コーパスをWord2Vecに学習させてモデルを作成しようとしています．
(domain.txtの中身としておく．一行ごとにドメイン名が記述されている)

gmailsecurityteam.com
goodbytoname.com
gzhueyuatex.com
hruner.com
hui-ain-apparel.tk
ice.ip64.net
interlogistics.com.vn
ivansaru.418.com1.ru
jad.fisbonline.com
jangasm.org
jump1ng.net
...

上記のような単語で，モデル作成は可能でしょうか？ネットなどを見ていると形態素解析によって空白で区切られている必要があるなどと書いてあったりするので質問させていただきました．

quickquip

2021/01/13 03:13

何がしたいのか? がまったく伝わってません。「word2vecを用いて特徴量の抽出を行う」は目的ではなく手段のはずです。目的の方を書いた方がよいかと思います。参考: 「XY 問題」とは何ですか？https://ja.meta.stackoverflow.com/questions/2701/#answer-2702

taraco_040103

2021/01/13 05:29

アドバイスありがとうございます．質問内容を修正させていただきます．

行動規範の内容に同意します

回答2件

ベストアンサー

直截の回答は

モデル作成は可能でしょうか？

無理です

ネットなどを見ていると形態素解析によって空白で区切られている必要がある

その通りです

です。

それはそれとしてやりたいことが分かりません。

例えば

gmail.com とより近いのは（近くしたいと考えているのは） google.com ですか? mail.yahoo.com ですか?

と聞かれて答えられますか?

「こういうものを作りたい」という意図があって、それにはどういうデータが必要か? という方向か、
「こういうデータがある」という状況があって、word2vecにかけたらどういう分散表現を得られるか? という方向か
のどちらかであれば理解できますが今はそのどちらでもないようです。

どちらにせよ、word2vecがどんな情報から分散表現を獲得しているかを勉強してからかと思います。

投稿2021/01/13 07:55

quickquip

総合スコア11346

taraco_040103

2021/01/13 10:35

回答ありがとうございます．確かに，自分でもよく分かっていないまま質問をしてしまっていたかもしれません．また，勉強してから質問させていただきます．

行動規範の内容に同意します

単語ではなく以下のようなドメインを用いて

の意味がよくわかりませんが、
とりあえず、ドキュメントをご覧になり、どのような意味なのかをご確認されると良いと思います。
LineSentenceは期待した動作をするものだと思いますか？
https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.LineSentence

投稿2021/01/13 02:56