pythonのprint関数におけるエラー

前提・実現したいこと

Word2Vecを使った単語間の類似度算出をしようとしています。
配列に入っている単語それぞれの類似度を算出します。
Word2Vecに関する参考記事

発生している問題・エラーメッセージ

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-4-c36bec344767> in <module>()
      3 for i in data:
      4     for  j in data:
----> 5         print(data[i] + '-' + data[j] + str(word2vec_model.similarity(data[i], data[j])))

TypeError: list indices must be integers or slices, not str

該当のソースコード

python
1import gensim
2word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
3data = ['あくび', '寝言', '寝不足', '消しカス', '消しゴム']
4
5for i in data:
6    for  j in data:
7        simNum = word2vec_model.similarity(data[i], data[j])
8        if simNum > 0:
9            print(data[i] + '-' + data[j] + str())
10        else:
11            pass

試したこと

以下のように配列からデータを取得せずに、類似度計算をしたところ、
vocabraryにない単語が入力された場合にエラーが出たため、
この例外処理も実現したいことのコードで実装する必要があります。
しかし、現状のコードでは例外処理の前にエラーが出ているため、
この部分が正しく動作するかわかっていない状況です。

import gensim
word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
import pprint
pprint.pprint(word2vec_model.similarity('あくび', '寝不足'))
pprint.pprint(word2vec_model.similarity('消しカス', '消しゴム'))

出力

0.38836078794177425
略
KeyError: "word '消しカス' not in vocabulary"

###ご回答を受けて試したことと問題
ボキャブラリーにない単語の例外処理が現在のコードでは適切に行われておらず、
エラーが表示されてしまいました。

python
1import gensim
2word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
3
4data = ['あくび', '寝言', '寝不足', '消しカス', '消しゴム']
5
6for i in range (len(data)):
7    for  j in range (len(data)):
8        simNum = word2vec_model.similarity(data[i], data[j])
9        if simNum > 0:
10            print(data[i] + '-' + data[j] + str())
11        else:
12            pass

出力

あくび-あくび1.0
あくび-寝言0.419536248055
あくび-寝不足0.388360787942
KeyError: "word '消しカス' not in vocabulary"

補足情報（FW/ツールのバージョンなど）

Python 3.6.3
Mac OS High Sierra
Jupyter notebook 5.0.

行動規範の内容に同意します

回答3件

ボキャブラリに単語がはいっているかどうかは、__contains__で判断できるはずです。

if word2vec_model.__contains__(word1) and word2vec_model.__contains__(word2):
    simNum = word2vec_model.similarity(word1, word2)

投稿2018/06/29 06:12

m-take

総合スコア249

hayataka2049

2018/06/29 06:18

それが通るなら、in演算子が使えるのでそっちで書けますね word1 in word2vec_model and word2 in word2vec_model そういえば辞書ライクなオブジェクトになってた記憶が・・・

LouiS0616

2018/06/29 06:21

なるほど。帰属演算をサポートしているのですか。ということは、こんな感じにも書けそうですね。 data = ['あくび', '寝言', '寝不足', '消しカス', '消しゴム'] it = filter(lambda w: w in word2vec_model, data) for word1, word2 in itertools.product(it, repeat=2): 　　if word1 is word2: 　　　　continue 　　simNum = word2vec_model.similarity(word1, word2) 註：成形のため全角空白を用いています。

退会済みユーザー

2018/07/01 04:41

ご回答いただきましてありがとうございました。

行動規範の内容に同意します

ベストアンサー

TypeError: list indices must be integers or slices, not str

超が付くほどの基礎です。改めてfor文の書き方をご確認ください。

Python
1>>> data = ['a', 'b', 'c']
2>>>
3>>> for datum in data:
4...     print(datum)
5...
6a
7b
8c
9>>>
10>>> for datum in data:
11...     print(data[datum])
12...
13Traceback (most recent call last):
14  File "<stdin>", line 2, in <module>
15TypeError: list indices must be integers or slices, not str
16>>>
17>>> for i in range(len(data)):
18...     print(data[i])
19...
20a
21b
22c

投稿2018/06/28 13:34

編集2018/06/28 15:08

LouiS0616

総合スコア35660

退会済みユーザー

2018/06/28 23:38

ご回答いただきましてありがとうございました。基本的な文法の学習も疎かにしないよう、気をつけます。 print関数におけるエラーがなくなったことで、やはりボキャブラリーにない単語でエラーが起き、うまく例外処理ができていないことが明らかになりました。ご回答を受けて試したことに追記させていただきましたので、可能であればこちらもアドバイスをいただけますと幸いです。

LouiS0616

2018/06/29 05:55

ボキャブラリーにない単語を前もって削除できるのが理想的ですが、ドキュメントhttps://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.BaseKeyedVectorsを見る限りまさにこれ！というメソッドはないですね。ひょっとしたらget_vectorの結果を利用できるかもしれませんが、手元で試していないためわかりません。 hayataka2049さんの回答のように、例外を用いるのも一つの方法ではあります。

退会済みユーザー

2018/07/01 04:42

ご回答とご丁寧にご説明いただきましてありがとうございました。

行動規範の内容に同意します

python
1for word1 in data:
2    for  word2 in data:
3        try:
4            simNum = word2vec_model.similarity(word1, word2)
5            print(word1 + '-' + word2 + str(simNum))
6        except Exception as e:
7            print(e)            
8