word2vecを使って，各単語のベクトルの和から1文あたりのベクトルの求めるプログラムがわかりません

Word2vecを使って，各単語のベクトルの和から１文あたりのベクトルを求めるプログラムを書いているのですが，うまく動きません．
どのように書けばうまく求めれるの教えていただきたいです．

自分でやってみた方法として，文章を文単位に分割し，Mecabを使って分かち書きを行いました．

分かち書きを行なった単語からWord2vecを使ってベクトルの算出はできるのですが，リストに空の値が出てきたしして，各単語のベクトルを足した1文あたりのベクトルが求めることができません．

途中まで，自力でコードを書いてみたのですが，空の要素などをうまく削除できないため，全てのベクトルを算出することができません．
どなたか力を貸していただけないでしょうか?

import MeCab
import re
from gensim.models import word2vec



#テキストファイル読み込み
f = open('test2.txt')
data1 = f.read()  # ファイル終端まで全て読んだデータを返す
f.close()

#分かち書き
tagger = MeCab.Tagger("-Owakati")
result = tagger.parse(data1)
result1 = re.sub('[、]', '',result)
print(result1)


#文章を文単位に分割
print(result)
data2 = result.split('。')
#word2vec学習データ
data = word2vec.Text8Corpus('test2_wakati.txt')
model = word2vec.Word2Vec(data, size=100,min_count=1)
model.save("sample.model")
print(data)

#print(data1)




#print(data2)
#data3 = data2.split(' ')
#print(data2)
#各文と単語の二重リストを作成
data4 = []
data3_1 = []
for i in range(len(data2)):
    print(i)
    data3 = data2[i].split(' ')
    data3.pop()
    data4.append(data3)
    


#print(data4)

#word2cevから各単語の特徴ベクトルを算出
for i in range(len(data4)):
    for b in range(len(data4[i])):
        print(b)
        print(model[data4[i][b]])

行動規範の内容に同意します

回答1件

質問の要点がはっきりしませんが、とりあえず次について回答します。

空の要素などをうまく削除できない

Googleで適当に検索してみたところ、いくつか解決策が見つかりました。
これらのページは、全て検索結果の1ページ目に表示されました... ちゃんと調べましたか？

発見次第消す方法

Python
1my_list = ['This', '', 'is', 'an', '', 'apple']
2while my_list.count(''):
3    my_list.remove('')

Python
1my_list = ['This', '', 'is', 'an', '', 'apple']
2while True:
3    try:
4        my_list.remove('')
5    except:
6        break

内包表記を利用する方法

Python
1my_list = ['This', '', 'is', 'an', '', 'apple']
2my_list = [word for word in my_list if word != '']

フィルタをかける方法

Python
1my_list = ['This', '', 'is', 'an', '', 'apple']
2my_list = list(filter(lambda word: word != '', my_list))

あと、気になったんですが...

Python
1for i in range(len(data4)):
2    for b in range(len(data4[i])):
3        print(b)
4        print(model[data4[i][b]])

こんな書き方しなくても平気ですよ。

Python
1for data4_i in data4:
2    for j, data4_ij in enumerate(data4_i):
3        print(j)
4        print(model[data4_ij])

変数に連番で名前を付けるのもやめましょう。意味が分からないです。

投稿2017/09/06 04:49

編集2017/09/06 04:55

LouiS0616

総合スコア35660

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

word2vecを使って，各単語のベクトルの和から1文あたりのベクトルの求めるプログラムがわかりません

関連した質問