Aidemyの問題でBOW(Bag of words)のベクトル表現の（下記コード参照）を解いた後にjupyter notebookのローカル環境で復習したところうまく再現ができません。

再現できない部分は以下の部分で　[[], [], []]　と空のリストが出力されてしまいます。
bow_corpus = [dictionary.doc2bow(d) for d in documents]
print(bow_corpus)

ちなみに上のdをprintすると<generator object Tokenizer.__tokenize_stream at 0x7f9b66032650>のようにオブジェクト名で出力されてしまうのが原因と思っていますが、
この部分をリストで出力出来ないのが困っています。

お手数ですが、コメントして頂けるとありがたいです。

（以下、コードになります）

from gensim import corpora
from janome.tokenizer import Tokenizer

text1 = "すもももももももものうち"
text2 = "料理も景色もすばらしい"
text3 = "私の趣味は写真撮影です"

t = Tokenizer()
tokens1 = t.tokenize(text1, wakati=True)
tokens2 = t.tokenize(text2, wakati=True)
tokens3 = t.tokenize(text3, wakati=True)

documents = [tokens1, tokens2, tokens3]

corporaを使い単語辞書を作成してください。

dictionary = corpora.Dictionary(documents)

各単語のidを表示してください

print(dictionary.token2id)

Bag of Wordsの作成してください

bow_corpus = [dictionary.doc2bow(d) for d in documents]

(id, 出現回数)のリストが出力されます。

print(bow_corpus)

行動規範の内容に同意します

回答1件

ベストアンサー

python
1#documents = [tokens1, tokens2, tokens3]
2documents = [[*t] for t in (tokens1, tokens2, tokens3)]
3
4#
5[[(0, 1), (1, 1), (2, 1), (3, 2), (4, 2)], [(3, 2), (5, 1), (6, 1), (7, 1)], [(2, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1)]]

投稿2022/03/20 01:58

melian

総合スコア19749

san_3_san

2022/03/20 06:18

ありがとうございました。 print(documents)すると [['すもも', 'も', 'もも', 'も', 'もも', 'の', 'うち'], ['料理', 'も', '景色', 'も', 'すばらしい'], ['私', 'の', '趣味', 'は', '写真', '撮影', 'です']] と出力され、リスト表記されたので、jupyter notebookでの再現する事が出来ました。ありがとうございました！

行動規範の内容に同意します