文章が読み込まれません

下記のコードで、３万９０００件の文章データを入れているはずが、一文しか入っていないということになっています。

Using TensorFlow backend.

朝霧の中に九段のともし哉
corpus length: 20
total chars: 12
Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し ']
Vectorization...
Build model...

原因を推測される方は何卒、宜しくお願いいたします。

追記：
textをpoemsに変えてみました。
すると、ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)となりました。

文章が表示される原因が、
print('Sequences:', sentences)
であることがわかりました。

/home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your Model call to the Keras 2 API: Model(inputs=Tensor("in..., outputs=Tensor("de...)
autoencoder = Model(input=input_word, output=decoded)
は、
autoencoder = Model(inputs=input_word, outputs=decoded)
で解消されることがわかりました。

poem.txt

朝霧 の 中 に 九段 の ともし 哉 
あたたか な 雨 が 降る なり 枯葎 
菜の花 や は つと 明るき 町 は づれ 
秋風 や 伊予 へ 流る る 汐 の 音 
長閑 さ や 障子 の 穴 に 海 見え て 
若鮎 の 二 手 に なりて 上り けり 
行く 秋 を す つく と 鹿 の 立ち に けり 
我 声 の 風 に なり けり 茸狩 
毎年 よ 彼岸の入り に 寒い の は 
我宿 は 女 ばかり の あつ さ 哉 
妻 より は 妾 の 多し 門 涼み 
みちのく へ 涼み に 行く や 下駄 は い て 
夕立 や 殺生石 の あたり より 
稲妻 や 生血 したたる つるし 熊 
薪 を わる いもうと 一人 冬 籠 
絶えず 人 いこ ふ 夏野 の 石 一つ 
赤蜻蛉 筑波 に 雲 もなか り けり 
何となく 奈良 なつかし や 古 暦 
春 や 昔 十 五 万 石 の 城下 哉 
六月 を 奇麗 な 風 の 吹く こと よ 
夏 瘦 の 骨 に とどまる 命 か な 
行く 我 に とどまる 汝 に 秋 二つ 
柿 く へ ば 鐘 が 鳴る なり 法隆寺 
漱石 が 来 て 虚子 が 来 て 大 三十日
枯薄 ここら よ 昔 不破の関 
元日 の 人通り と は なり に けり 
春風 に こぼれ て 赤 し 歯磨粉 
春 の 夜 や 屏風 の 陰 に 物 の 息

python
1import numpy as np
2import codecs
3from keras.layers import Activation, Dense, Input
4from keras.models import Model
5import sys
6
7#データの読み込み
8with open(r'/home/hoge/Desktop/data/haiku.txt', encoding='utf-8') as f:
9    poems = f.read().splitlines()
10text = poems[0]  # 1個目のデータ
11print(text)
12
13# コーパスの長さ
14print('corpus length:', len(text))
15# 文字数を数えるため、textをソート
16chars = sorted(list(set(text)))
17# 全文字数の表示
18print('total chars:', len(chars))
19# 文字をID変換
20char_indices = dict((c, i) for i, c in enumerate(chars))
21# IDから文字へ変換
22indices_char = dict((i, c) for i, c in enumerate(chars))
23#テキストを17文字ずつ読み込む
24maxlen = 2
25#サンプルバッチ数
26step = 2
27sentences = []
28for i in range(0, len(text) - maxlen, step):
29    sentences.append(text[i: i + maxlen])
30#ベクトル化する
31print('Vectorization...')
32x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
33for i, sentence in enumerate(sentences):
34    for t, char in enumerate(sentence):
35        x[i, t, char_indices[char]] = 1
36#モデルを構築する工程に入る
37print('Build model...')
38#encoderの次元
39encoding_dim = 128
40#入力用の変数
41input_word = Input(shape=(maxlen, len(chars)))
42#入力された語がencodeされたものを格納する
43encoded = Dense(128, activation='relu')(input_word)
44encoded = Dense(64, activation='relu')(encoded)
45encoded = Dense(32, activation='relu')(encoded)
46#潜在変数（実質的な主成分分析）
47latent = Dense(8, activation='relu')(encoded)
48#encodeされたデータを再構成
49decoded = Dense(32, activation='relu')(latent)
50decoded = Dense(64, activation='relu')(decoded)
51decoded = Dense(12, activation='relu')(encoded)
52autoencoder = Model(inputs=input_word, outputs=decoded)
53# #Adamで最適化、loss関数をcategorical_crossentropy
54autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy')
55#モデルの構造を見る
56autoencoder.summary()
57#アレイサイズの確認
58print(x.shape)
59#autoencoderの実行
60autoencoder.fit(x, x,
61       epochs=50,
62       batch_size=3,
63       shuffle=False)
64
65for i in range(17):
66    x_haiku = np.zeros((1, maxlen, len(chars)))
67    for t, char in enumerate(sentence):
68        x_haiku[0,char_indices[char]] = 1.
69        sentence = sentence[:-1]
70print(char)

退会済みユーザー

2018/10/25 14:02

どの時点で、得られるべきデータが得られていないかを、デバッグ機能で確認してみてください。ちなみに、12というのは文字数のことではないですよね？

yep

2018/10/25 14:09 編集

エラーというわけではなく動きはするようですが、 $ python3 '/home/yudai/Desktop/src/keras_AE.py' Using TensorFlow backend. 朝霧の中に九段のともし哉 corpus length: 20 total chars: 12 Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し '] Vectorization... Build model... /home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your `Model` call to the Keras 2 API: `Model(inputs=Tensor("in..., outputs=Tensor("de...)` autoencoder = Model(input=input_word, output=decoded)

yep

2018/10/25 14:07

うまく読み込められていないようです。

yep

2018/10/25 14:15

おそらくですが、text = poems[0]によってデータが一個しか入っていないという事でしょうか？

退会済みユーザー

2018/10/25 14:23 編集

うーん、kerasについて無知なので的外れだと申し訳ないのですが、print('Build model...')以降のどこかで失敗しているのですよね？警告(UserWarning)のあたりが、関係していそうですが、そのあたりの文言でググってみると、対応策が見つかるかもしれませんよ？例えば、「keras_AE.py:54: UserWarning: Update your Model call to the Keras 2 API」とか。keras_AE.py:54の部分は、kerasを利用する人共通の部分だと思うので、検索ワードとして引っかかりそうです。また、UserWarning以降は、警告文なので検索ワードとして適切そうです。で、これ以降は、文字や記号でごちゃごちゃしているので、検索ワードとして不適切かと。

yep

2018/10/25 14:32

調べてみるとどうやら、このUserWarningは、問題ないようです。

退会済みユーザー

2018/10/25 14:42

あ、text = poems[0] # 1個目のデータと、ありますが、一文分しか実行されてないということはないですか？for文で回した方がいい気がしますが。これじゃなかったら私にはお手上げです。ごめんなさい。

yep

2018/10/25 14:52 編集

textをpoemsに変更。for文で回しcorpus length: 39069 total chars: 39065になりました。しかし、Value errorはあるので直していきたいと思います。

行動規範の内容に同意します

回答1件

自己解決

textをpoemsに変更。for文で回しcorpus length: 39069 total chars: 39065になりました。しかし、Value errorが残りました。

python
1with open(r'/home/yudai/Desktop/data/haiku.txt', encoding='utf-8') as f:
2    poems = f.readlines()
3    for p in poems:
4        s = p.rstrip() # 改行を除去
5        s = s.split(' ')

以前の「テキストを一行ずつ読み込みたい」より

その後、
ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)

decoded = Dense(12, activation='relu')(encoded)

を

decoded = Dense(39065, activation='relu')(encoded)

に修正すると、正常に学習できました。

投稿2018/10/25 22:38

編集2018/10/25 23:31

yep

総合スコア45

退会済みユーザー

2018/10/27 13:10

おめでとうございます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

文章が読み込まれません

関連した質問