文章を学習する単純なautoencoderを書いてみました。
しかし、
Traceback (most recent call last):
File "C:\Users\yudai\Desktop\keras_AE.py", line 70, in <module>
validation_data=(test_word))
NameError: name 'test_word' is not defined
と出力されます。
もし原因がわかる方やもっとこうしたらいいのに、というご意見がある方は、
何卒、ご教授宜しくお願い致します。
python
1from keras.layers import Input, Dense 2from keras.layers.core import Activation 3from keras.models import Model 4from keras.utils.data_utils import get_file 5import numpy as np 6import codecs 7 8#データの読み込み 9with codecs.open(r'C:\Users\yudai\Desktop\poem.txt', 'r', 'utf-8') as f: 10 for text in f: 11 text = text.strip() 12#コーパスの長さ 13print('corpus length:', len(text)) 14#文字数を数えるため、textをソート 15chars = sorted(list(set(text))) 16#全文字数の表示 17print('total chars:', len(chars)) 18#文字をID変換 19char_indices = dict((c, i) for i, c in enumerate(chars)) 20#IDから文字へ変換 21indices_char = dict((i, c) for i, c in enumerate(chars)) 22#テキストを17文字ずつ読み込む 23maxlen = 17 24#サンプルバッチ数 25step = 3 26sentences = [] 27next_chars = [] 28for i in range(0, len(text) - maxlen, step): 29 sentences.append(text[i: i + maxlen]) 30 next_chars.append(text[i + maxlen]) 31#学習する文字数を表示 32print('Sequences:', len) 33 34#ベクトル化する 35print('Vectorization...') 36x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool) 37y = np.zeros((len(sentences), len(chars)), dtype=np.bool) 38for i, sentence in enumerate(sentences): 39 for t, char in enumerate(sentence): 40 x[i, t, char_indices[char]] = 1 41 y[i, char_indices[next_chars[i]]] = 1 42 43#モデルを構築する工程に入る 44print('Build model...') 45#encoderの次元 46encoding_dim = 128 47#入力用の変数 48input_word = Input(shape=(32,)) 49#入力された語がencodeされたものを格納する 50encoded = Dense(128, activation='relu')(input_word) 51encoded = Dense(64, activation='relu')(encoded) 52encoded = Dense(32, activation='relu')(encoded) 53#潜在変数(実質的な主成分分析) 54latent = Dense(8, activation='relu')(encoded) 55#encodeされたデータを再構成 56decoded = Dense(32, activation='relu')(latent) 57decoded = Dense(64, activation='relu')(decoded) 58decoded = Dense(128, activation='relu')(encoded) 59 60output = Dense(100, activation='relu') 61 62autoencoder = Model(input=input_word, output=decoded) 63#Adamで最適化、loss関数をcategorical_crossentropy 64autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy') 65 66#autoencoderの実行 67autoencoder.fit(x, 68 epochs=1000, 69 batch_size=256, 70 shuffle=False) 71#学習の進み具合を観察 72def on_epoch_end(epochs): 73 print() 74 print('Epoch: %d' % epochs) 75 76#モデルの構造を保存 77model_json = autoencoder.to_json() 78with open('keras_AE.json', 'w') as json_file: 79 json_file.write(model_json) 80#学習済みモデルの重みを保存 81autoencoder.save_weights('AE.h5') 82 83decoded_word = autoencoder.predict(word_test) 84 85X_embedded = model.predict(X_train) 86autoencoder.fit(X_embedded,X_embedded,epochs=10, 87 batch_size=256, validation_split=.1)
C:\Users\hoge\Desktop\poem.txtは、webから2万9000件の俳句を一文ずつ抽出し、MeCabで形態素解析を行っています。
例:かき くえば かね が なる なり ほうりゅうじ
#環境
Windows 10
python 3.7.0
tensorflow-gpu 1.9.0
keras 2.2.4

回答1件
あなたの回答
tips
プレビュー