質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Q&A

解決済

1回答

12324閲覧

pythonでword2vecを動かしたいのですが、RuntimeErrorが出て、解決できません

Solamame24281

総合スコア11

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

0グッド

0クリップ

投稿2017/01/23 23:26

pythonでword2vecを動かしたいのですが、RuntimeErrorが出てきました。

###発生している問題・エラーメッセージ
RuntimeError:ypu must first build vocabulary before training the models

###該当のソースコード
http://tjo.hatenablog.com/entry/2014/06/19/233949
を参考にさせてもらっています。
from gensim.models import word2vec
data = word2vec.Text8Corpus('data.txt')
はエラーメッセージは出ないのですが、
model = word2vec.Word2Vec(data, size=200)
を実行するとエラーが出ます。
読み込みたいファイルは、pythonのカレントディレクトリにあります。

###試したこと
同じような質問を見てやってみましたが、うまくいきませんでした
https://teratail.com/questions/14400

###補足情報(言語/FW/ツール等のバージョンなど)
python2.7(anacondaを入れてコマンドプロンプトから使ってます)
MeCab0.996
Windows10 64bit

文系学生で、プログラミングなどほとんどやったこともなく、知識がかなり
乏しいです。
大変申し訳ありませんが、易しい説明をお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2017/01/24 01:54

差支えない範囲でdata.txtの内容を提示されると回答えられやすいかと思います。
Solamame24281

2017/01/24 05:54

芥川龍之介の羅生門、鼻です。最初に回答してくださった方のとおりにやると、その先に進めましたが、for x in out:...でIndentationError:expected an indented blockと出ました
can110

2017/01/24 06:06

あなたの実行したソースコードを、できれば全文そのまま提示してください。
Solamame24281

2017/01/24 06:26

すみません、コピー&ペーストで解決しました!
guest

回答1

0

ベストアンサー

元データの単語が少なすぎるのではないでしょうか?
以下によると、デフォルト動作では、5回以上出現する単語が1つもないと提示エラーになるようです。
Python: gensim: RuntimeError: you must first build vocabulary before training the model

とりあえずmin_count=1を指定すると動作はすると思います。

Python

1model = word2vec.Word2Vec(data, size=200,min_count=1)

投稿2017/01/24 01:57

can110

総合スコア38258

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Solamame24281

2017/01/24 05:55

回答ありがとうございます。 その先に進めましたが、for x in out:...でIndentationError:expected an indented blockと出てしまいました・・・
can110

2017/01/24 06:08

ソースの入力ミスなどで、インデントが正しくないと思われます。
Solamame24281

2017/01/24 06:26

すみません、コピー&ペーストで解決しました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問