プログラミング初心者です。
前提・実現したいこと
genismで文書ベクトルを作成しようとしています。
発生している問題・エラーメッセージ
単語を分割することは出来たのですが、辞書を作ることが出来ません。
出力は単語IDを付与することです。
from gensim import corporaとコードを打つとエラー出ます。
gensimはインストールしました。
該当のソースコード
import MeCab
import collections
from pprint import pprint
from gensim import corpora,models
mecab = MeCab.Tagger ("-Ochasen")
words = []
m = []#動詞と名詞が入る
Training_docs = []
text="情報工学科で最初の専門科目です。情報工学は、情報の発生、伝達、収集、蓄積、処理など情報を工学的に扱う分野です。"
print(mecab.parse(text))
mecabTagger = MeCab.Tagger("-Ochasen")#形態素解析
mecab = mecabTagger.parseToNode(text)#形態素解析を実行
chunks = mecabTagger.parse(text).splitlines()
count = {}#countの中に辞書を作る {}
for f in chunks:
cols = f.split("\t")
if len(cols) >= 4:
parts = cols[3].split(",")
if parts[0].startswith("名詞"):
m.append(cols[0])
for f in chunks:
cols = f.split("\t")
if len(cols) >= 4:
parts = cols[3].split(",")
if parts[0].startswith("動詞"):
m.append(cols[0])
print(m)
count = collections.Counter(m)
print("全単語数")
print(len(m))
print("単語頻度")
print(count.most_common())#単語を多い順に表示
pprint(m)
dictionary = corpora.Dictionary(m)
dictionary.save('/tmp/deerwester.dict')
print(dictionary)