下記のコードで、3万9000件の文章データを入れているはずが、一文しか入っていないということになっています。
Using TensorFlow backend.
朝霧 の 中 に 九段 の ともし 哉
corpus length: 20
total chars: 12
Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し ']
Vectorization...
Build model...
原因を推測される方は何卒、宜しくお願いいたします。
追記:
textをpoemsに変えてみました。
すると、ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)となりました。
文章が表示される原因が、
print('Sequences:', sentences)
であることがわかりました。
/home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your Model
call to the Keras 2 API: Model(inputs=Tensor("in..., outputs=Tensor("de...)
autoencoder = Model(input=input_word, output=decoded)
は、
autoencoder = Model(inputs=input_word, outputs=decoded)
で解消されることがわかりました。
poem.txt
朝霧 の 中 に 九段 の ともし 哉 あたたか な 雨 が 降る なり 枯葎 菜の花 や は つと 明るき 町 は づれ 秋風 や 伊予 へ 流る る 汐 の 音 長閑 さ や 障子 の 穴 に 海 見え て 若鮎 の 二 手 に なりて 上り けり 行く 秋 を す つく と 鹿 の 立ち に けり 我 声 の 風 に なり けり 茸狩 毎年 よ 彼岸の入り に 寒い の は 我宿 は 女 ばかり の あつ さ 哉 妻 より は 妾 の 多し 門 涼み みちのく へ 涼み に 行く や 下駄 は い て 夕立 や 殺生石 の あたり より 稲妻 や 生血 したたる つるし 熊 薪 を わる いもうと 一人 冬 籠 絶えず 人 いこ ふ 夏野 の 石 一つ 赤蜻蛉 筑波 に 雲 もなか り けり 何となく 奈良 なつかし や 古 暦 春 や 昔 十 五 万 石 の 城下 哉 六月 を 奇麗 な 風 の 吹く こと よ 夏 瘦 の 骨 に とどまる 命 か な 行く 我 に とどまる 汝 に 秋 二つ 柿 く へ ば 鐘 が 鳴る なり 法隆寺 漱石 が 来 て 虚子 が 来 て 大 三十日 枯薄 ここら よ 昔 不破の関 元日 の 人通り と は なり に けり 春風 に こぼれ て 赤 し 歯磨粉 春 の 夜 や 屏風 の 陰 に 物 の 息
python
1import numpy as np 2import codecs 3from keras.layers import Activation, Dense, Input 4from keras.models import Model 5import sys 6 7#データの読み込み 8with open(r'/home/hoge/Desktop/data/haiku.txt', encoding='utf-8') as f: 9 poems = f.read().splitlines() 10text = poems[0] # 1個目のデータ 11print(text) 12 13# コーパスの長さ 14print('corpus length:', len(text)) 15# 文字数を数えるため、textをソート 16chars = sorted(list(set(text))) 17# 全文字数の表示 18print('total chars:', len(chars)) 19# 文字をID変換 20char_indices = dict((c, i) for i, c in enumerate(chars)) 21# IDから文字へ変換 22indices_char = dict((i, c) for i, c in enumerate(chars)) 23#テキストを17文字ずつ読み込む 24maxlen = 2 25#サンプルバッチ数 26step = 2 27sentences = [] 28for i in range(0, len(text) - maxlen, step): 29 sentences.append(text[i: i + maxlen]) 30#ベクトル化する 31print('Vectorization...') 32x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool) 33for i, sentence in enumerate(sentences): 34 for t, char in enumerate(sentence): 35 x[i, t, char_indices[char]] = 1 36#モデルを構築する工程に入る 37print('Build model...') 38#encoderの次元 39encoding_dim = 128 40#入力用の変数 41input_word = Input(shape=(maxlen, len(chars))) 42#入力された語がencodeされたものを格納する 43encoded = Dense(128, activation='relu')(input_word) 44encoded = Dense(64, activation='relu')(encoded) 45encoded = Dense(32, activation='relu')(encoded) 46#潜在変数(実質的な主成分分析) 47latent = Dense(8, activation='relu')(encoded) 48#encodeされたデータを再構成 49decoded = Dense(32, activation='relu')(latent) 50decoded = Dense(64, activation='relu')(decoded) 51decoded = Dense(12, activation='relu')(encoded) 52autoencoder = Model(inputs=input_word, outputs=decoded) 53# #Adamで最適化、loss関数をcategorical_crossentropy 54autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy') 55#モデルの構造を見る 56autoencoder.summary() 57#アレイサイズの確認 58print(x.shape) 59#autoencoderの実行 60autoencoder.fit(x, x, 61 epochs=50, 62 batch_size=3, 63 shuffle=False) 64 65for i in range(17): 66 x_haiku = np.zeros((1, maxlen, len(chars))) 67 for t, char in enumerate(sentence): 68 x_haiku[0,char_indices[char]] = 1. 69 sentence = sentence[:-1] 70print(char)
回答1件
あなたの回答
tips
プレビュー