現在、gensimにてword2vecを使用し、単語のベクトル化をしています。
事前学習モデルは白ヤギコーポレーションのものを使用しております。
ここの辞書にない単語に対しても分散表現を獲得したく思い、コーパスを用意して学習させたのですが、新規単語のうち学習できるものとできないものが出てきました。
Python
1import gensim 2 3model_path='model_path' 4model=gensim.models.Word2Vec.load(model_path) 5 6#事前学習済みモデルには無い語彙を確認 7model["python"] #これは通らない 8model["vgg"] #これは通らない 9 10#コーパスを用意 ('python','vgg'が含まれていること確認済み) 11corpus_list=[[単語,単語2,単語3,...],[単語1,単語2,単語3,...],[単語1,単語2,単語3,...]...] 12model.build_vocab(corpus_list,update=True) 13model.train(corpus_list,total_examples=model.corpus_count,epochs=model.epochs) 14model["python"] #これは通る 15model["vgg"] #これは通らない
新規単語320個ほどのうち、登録できるものが40、できないものが280個ほどあります。なぜこのようなことが起こるのかわかる方がいたらご教授いただきたいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/09/09 02:51
2022/10/21 11:53