前提

word2vecでレビューの名詞を学習させて，その名詞の分散表現を取得したいと考えています．実装はできているのですが，期待通りに動きません．

実現したいこと

word2vecコーパスを学習させる．
コーパスの全単語を学習させる．

発生している問題

ソースコード1のword_listにはレビュー文の名詞が二次元リストの形式で格納されています．len(c)では，そのリストに格納されている名詞を重複なしでカウントしています．その結果は2728と出力されています．

しかし，ソースコード2では，452件の単語しか学習できていないことが確認できます．また，「昼過ぎ」という単語の分散表現を取得しようとしたところ，該当する単語がないとエラーが出力されます．もちろん，word_listの中に「昼過ぎ」があることは確認済みです．

この問題を解決したく，2728件の単語を学習させたいです．また，エラーメッセージ1の警告も気になります．batch_wordsを小さくすることを推奨されているようですが，このbatch_wordsがどこに該当するのかもわかりません．

どなたかわかる方，お教えいただければ幸いです．

該当のソースコード1

python
1# Word2Vecライブラリのロード
2from gensim.models import word2vec
3from collections import Counter
4import collections
5
6# size: 圧縮次元数
7# min_count: 出現頻度の低いものをカットする
8# window: 前後の単語を拾う際の窓の広さを決める
9# iter: 機械学習の繰り返し回数(デフォルト:5)十分学習できていないときにこの値を調整する
10# model.wv.most_similarの結果が1に近いものばかりで、model.dict['wv']のベクトル値が小さい値ばかりの 
11# ときは、学習回数が少ないと考えられます。
12# その場合、iterの値を大きくして、再度学習を行います。
13
14# 事前準備したword_listを使ってWord2Vecの学習実施
15
16#docs = word2vec.LineSentence("/content/test1.txt")
17
18
19for words in word_list:
20    for word in words:
21        new_word.append(word)
22c = collections.Counter(new_word)
23print(len(c))
24
25
26model = word2vec.Word2Vec(word_list, sg = 1, size=100, min_count=5, window=5, iter=10)
27
28
29model.save("kokoro.model")

エラーメッセージ1

2728
WARNING:gensim.models.base_any2vec:under 10 jobs per worker: consider setting a smaller `batch_words' for smoother alpha decay

該当のソースコード2

python
1print("分散表現の形状：\n{}".format(model.wv.vectors.shape))
2
3
4
5分散表現の形状：
6(452, 100)

エラーメッセージ1

KeyError                                  Traceback (most recent call last)
<ipython-input-71-703caa5902ad> in <module>
----> 1 print(model.__dict__['wv']['昼過ぎ'])

2 frames
/usr/local/lib/python3.8/dist-packages/gensim/models/keyedvectors.py in word_vec(self, word, use_norm)
    450             return result
    451         else:
--> 452             raise KeyError("word '%s' not in vocabulary" % word)
    453 
    454     def get_vector(self, word):

KeyError: "word '昼過ぎ' not in vocabulary"

行動規範の内容に同意します

回答2件

ベストアンサー

回答ではありません

とりあえず全部入れるにはmin_count=1にしないと駄目なんじゃないかと思います。ただし、

https://rare-technologies.com/word2vec-tutorial/

Bigger size values require more training data, but can lead to better (more accurate) models. Reasonable values are in the tens to hundreds.

とのことなので、wvのsizeが1000を超えるのは妥当じゃないようです。

質問の仕方の問題

環境が全く記載されていないので、再現させるために回答者が試行錯誤しないと答えられない質問になっています。

jupyterを使ってるなら(エラーメッセージにipythonが見えるので)、それらを使っている旨が必ず必要です。またその際にcpythonではなくanacondaを使っていたり、pipではなくconda(anacondaの標準的な環境ツール)を使っているならそれは明記する必要があり、インストールしているpythonのパッケージがあるならそれも記載が必要です。そしてそれら各々にバージョンの記載が必要になります。そして当然pythonやOSやそのバージョンも必要です。それらが異なるだけで現象は全く異なってしまいます。

再現環境に近い環境の構築

近いコードを書いてみました。本来ならshell scriptかbatファイル(もしくはpowershellだが懸念点が多すぎる)で書くところだけど、なるべく共通にすべくpythonで書きました。venvで構築した環境に

mecab-python3 1.0.6(最新)
unidic-lite 1.0.8(最新)
gensim 4.3.0(最新)

を入れて、hoge.pyというサンプルコードを含んだファイルを出力して実行します。実行するとサンプルドキュメントを適当に文に分解し、mecabで形態素解析した後、名詞だけにしてword2vecに突っ込んで最後にvocab相当を出力させています。

min_countを2以上にすると、出現回数がその数字未満の単語は消えてしまうのが分かります。

python
1import os
2import venv
3import subprocess
4ENV = 'env'
5if os.name == 'posix':
6    BIN = 'bin'
7else:
8    BIN = 'Scripts'
9builder = venv.EnvBuilder(with_pip=True)
10builder.create(ENV)
11python = os.path.join('.', ENV, BIN, 'python')
12p = subprocess.run([python, '-m', 'pip', 'install', '--upgrade', 'pip', 'setuptools'])
13p = subprocess.run([python, '-m', 'pip', 'install', 'mecab-python3', 'unidic-lite', 'gensim'])
14with open('hoge.py', 'wt', encoding='utf8') as f:
15    f.write("""\
16document = \"\"\"\\
17前提
18
19word2vecでレビューの名詞を学習させて，その名詞の分散表現を取得したいと考えています．実装はできているのですが，期待通りに動きません．
20実現したいこと
21
22    word2vecコーパスを学習させる．
23    コーパスの全単語を学習させる．
24
25発生している問題
26
27ソースコード1のword_listにはレビュー文の名詞が二次元リストの形式で格納されています．len(c)では，そのリストに格納されている名詞を重複なしでカウントしています．その結果は2728と出力されています．
28
29しかし，ソースコード2では，452件の単語しか学習できていないことが確認できます．また，「昼過ぎ」という単語の分散表現を取得しようとしたところ，該当する単語がないとエラーが出力されます．もちろん，word_listの中に「昼過ぎ」があることは確認済みです．
30
31この問題を解決したく，2728件の単語を学習させたいです．また，エラーメッセージ1の警告も気になります．batch_wordsを小さくすることを推奨されているようですが，このbatch_wordsがどこに該当するのかもわかりません．
32
33どなたかわかる方，お教えいただければ幸いです．
34\"\"\"
35import re
36sentences = [*filter(lambda x: x != '', map(str.strip, re.split(r'．|\\n\\n', document)))]
37import MeCab 
38chasen = MeCab.Tagger() 
39words_list = [[*map(lambda x: x[0], filter(lambda x: len(x)>=5 and '名詞' in x[4], [elmline.split() for elmline in chasen.parse(sentence).splitlines()]))] for sentence in sentences]
40print(words_list)
41new_word = [word for words in words_list for word in words]
42import collections
43c = collections.Counter(new_word)
44print(len(c))
45from gensim.models import word2vec
46model = word2vec.Word2Vec(words_list, vector_size = 100, min_count=1)
47print(f'分散表現の形状：\\n{model.wv.vectors.shape}')
48print(f'単語：\\n{model.wv.index_to_key}')
49""")
50p = subprocess.run([python, 'hoge.py'])