質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.96%

word2vecのmodelに新規単語を登録する

受付中

回答 0

投稿

  • 評価
  • クリップ 0
  • VIEW 712

score 1

word2vecのモデルにコーパスされたテキストファイル"corpas_omosiro.txt"を新規登録しようとしているのですが、以下のエラー文が出てしまい実装できません。
現環境はpython 3.7.4、gensim 3.8.3、mecab(mecab-ipadic-neologdインストール済み)です。

# coding: utf-8
from gensim.models import word2vec
import logging
import sys
import numpy as np
import MeCab
import sys
import re
import gensim
import pprint
from collections import Counter

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

class W2v():
    MODEL = None

    def __init__(self):
        if W2v.MODEL is None:
            #学習モデル読み込み
            W2v.MODEL = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

    def similarity(self, word1, word2):
        print("近似度計算: "+word1+" - "+word2)

        try:
            return W2v.MODEL.wv.similarity(word1, word2)
        except KeyError as e:
            print(e)
            return -1.0

    def getVec(self, word):
        try:
            return W2v.MODEL.wv[word]

        except KeyError:
            return np.zeros(200)

    #再学習、上書きを行うメソッド
    def updateTrain(self, corpus):
        sentences = word2vec.Text8Corpus(corpus)
        W2v.MODEL.build_vocab(sentences, update=True)
        W2v.MODEL.train(sentences, total_examples=W2v.MODEL.corpus_count, epochs=W2v.MODEL.iter)
        W2v.MODEL.save("model.vec")

if __name__ == "__main__":
    w2v = W2v()

    word = "面白"

    w2v.updateTrain("corpus_omosiro.txt")

    print(word + "=")
    print(w2v.getVec(word))

    #単語数の確認
    print(len(W2v.MODEL.wv.vocab))


エラー文
Traceback (most recent call last):
File "add.py", line 51, in <module>
w2v.updateTrain("corpus_omosiro.txt")
File "add.py", line 42, in updateTrain
W2v.MODEL.build_vocab(sentences, update=True)
AttributeError: 'Word2VecKeyedVectors' object has no attribute 'build_vocab'

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • quickquip

    2020/08/03 00:52 編集

    質問が書いてありません。

    あと、エラーは書いてあるとおり「Word2VecKeyedVectorsにはbuild_vocabメソッドがない」です。ないメソッドを呼ぼうと思ったのはなぜか(=build_vocabメソッドがあるだろうと思ったのはなぜか)も書くとよいかと思います。

    キャンセル

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.96%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る