gensimのword2vecに新規単語が登録できない

現在、gensimにてword2vecを使用し、単語のベクトル化をしています。

事前学習モデルは白ヤギコーポレーションのものを使用しております。

ここの辞書にない単語に対しても分散表現を獲得したく思い、コーパスを用意して学習させたのですが、新規単語のうち学習できるものとできないものが出てきました。

Python
1import gensim
2
3model_path='model_path'
4model=gensim.models.Word2Vec.load(model_path)
5
6#事前学習済みモデルには無い語彙を確認
7model["python"] #これは通らない
8model["vgg"] #これは通らない
9
10#コーパスを用意　('python','vgg'が含まれていること確認済み)
11corpus_list=[[単語,単語２,単語３,...],[単語１,単語２,単語３,...],[単語１,単語２,単語３,...]...]
12model.build_vocab(corpus_list,update=True)
13model.train(corpus_list,total_examples=model.corpus_count,epochs=model.epochs)
14model["python"] #これは通る
15model["vgg"] #これは通らない

新規単語320個ほどのうち、登録できるものが40、できないものが280個ほどあります。なぜこのようなことが起こるのかわかる方がいたらご教授いただきたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

根本解決ではありませんが、同じ現象に遭遇したので。
追加学習する単語数が少ないと、(値が切り捨てられるか何かで)モデルに追加されないようです。corpus_list*(任意の数字)などで、インプットするデータを水増しして試してみてください。
ただし水増ししたことによって、モデルがあるべき姿から乖離しかねないことは留意すべきなのかもしれません。

私より詳しい方へ
もっと良い方法がある気がします。アイデアをご教授頂きたいです。

投稿2022/09/09 00:24

atom0190

総合スコア9

atom0190

2022/09/09 02:51

追記です。更に調べた結果、学習済モデルの白ヤギさんのモデルが、min_count=20で設定してあることが原因だと思われます。 (model.min_countで確認出来ます) よって、出現回数20回以下の単語はモデルに取り込まない、と。対処法としては、 ①上記の水増しを*20にするもしくは ②model.min_count = 1 に設定し直してからbuild_vocab → trainかと思われます。 ②がフェアなのかもしれませんが、どちらが良いかは活用先の問題によるかと思います。