質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1126閲覧

文章が読み込まれません

yep

総合スコア45

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

1グッド

0クリップ

投稿2018/10/25 08:37

編集2018/10/25 14:41

下記のコードで、3万9000件の文章データを入れているはずが、一文しか入っていないということになっています。

Using TensorFlow backend.

朝霧 の 中 に 九段 の ともし 哉
corpus length: 20
total chars: 12
Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し ']
Vectorization...
Build model...

原因を推測される方は何卒、宜しくお願いいたします。

追記:
textをpoemsに変えてみました。
すると、ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)となりました。

文章が表示される原因が、
print('Sequences:', sentences)
であることがわかりました。

/home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your Model call to the Keras 2 API: Model(inputs=Tensor("in..., outputs=Tensor("de...)
autoencoder = Model(input=input_word, output=decoded)
は、
autoencoder = Model(inputs=input_word, outputs=decoded)
で解消されることがわかりました。

poem.txt

朝霧 の 中 に 九段 の ともし 哉 あたたか な 雨 が 降る なり 枯葎 菜の花 や は つと 明るき 町 は づれ 秋風 や 伊予 へ 流る る 汐 の 音 長閑 さ や 障子 の 穴 に 海 見え て 若鮎 の 二 手 に なりて 上り けり 行く 秋 を す つく と 鹿 の 立ち に けり 我 声 の 風 に なり けり 茸狩 毎年 よ 彼岸の入り に 寒い の は 我宿 は 女 ばかり の あつ さ 哉 妻 より は 妾 の 多し 門 涼み みちのく へ 涼み に 行く や 下駄 は い て 夕立 や 殺生石 の あたり より 稲妻 や 生血 したたる つるし 熊 薪 を わる いもうと 一人 冬 籠 絶えず 人 いこ ふ 夏野 の 石 一つ 赤蜻蛉 筑波 に 雲 もなか り けり 何となく 奈良 なつかし や 古 暦 春 や 昔 十 五 万 石 の 城下 哉 六月 を 奇麗 な 風 の 吹く こと よ 夏 瘦 の 骨 に とどまる 命 か な 行く 我 に とどまる 汝 に 秋 二つ 柿 く へ ば 鐘 が 鳴る なり 法隆寺 漱石 が 来 て 虚子 が 来 て 大 三十日 枯薄 ここら よ 昔 不破の関 元日 の 人通り と は なり に けり 春風 に こぼれ て 赤 し 歯磨粉 春 の 夜 や 屏風 の 陰 に 物 の 息

python

1import numpy as np 2import codecs 3from keras.layers import Activation, Dense, Input 4from keras.models import Model 5import sys 6 7#データの読み込み 8with open(r'/home/hoge/Desktop/data/haiku.txt', encoding='utf-8') as f: 9 poems = f.read().splitlines() 10text = poems[0] # 1個目のデータ 11print(text) 12 13# コーパスの長さ 14print('corpus length:', len(text)) 15# 文字数を数えるため、textをソート 16chars = sorted(list(set(text))) 17# 全文字数の表示 18print('total chars:', len(chars)) 19# 文字をID変換 20char_indices = dict((c, i) for i, c in enumerate(chars)) 21# IDから文字へ変換 22indices_char = dict((i, c) for i, c in enumerate(chars)) 23#テキストを17文字ずつ読み込む 24maxlen = 2 25#サンプルバッチ数 26step = 2 27sentences = [] 28for i in range(0, len(text) - maxlen, step): 29 sentences.append(text[i: i + maxlen]) 30#ベクトル化する 31print('Vectorization...') 32x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool) 33for i, sentence in enumerate(sentences): 34 for t, char in enumerate(sentence): 35 x[i, t, char_indices[char]] = 1 36#モデルを構築する工程に入る 37print('Build model...') 38#encoderの次元 39encoding_dim = 128 40#入力用の変数 41input_word = Input(shape=(maxlen, len(chars))) 42#入力された語がencodeされたものを格納する 43encoded = Dense(128, activation='relu')(input_word) 44encoded = Dense(64, activation='relu')(encoded) 45encoded = Dense(32, activation='relu')(encoded) 46#潜在変数(実質的な主成分分析) 47latent = Dense(8, activation='relu')(encoded) 48#encodeされたデータを再構成 49decoded = Dense(32, activation='relu')(latent) 50decoded = Dense(64, activation='relu')(decoded) 51decoded = Dense(12, activation='relu')(encoded) 52autoencoder = Model(inputs=input_word, outputs=decoded) 53# #Adamで最適化、loss関数をcategorical_crossentropy 54autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy') 55#モデルの構造を見る 56autoencoder.summary() 57#アレイサイズの確認 58print(x.shape) 59#autoencoderの実行 60autoencoder.fit(x, x, 61 epochs=50, 62 batch_size=3, 63 shuffle=False) 64 65for i in range(17): 66 x_haiku = np.zeros((1, maxlen, len(chars))) 67 for t, char in enumerate(sentence): 68 x_haiku[0,char_indices[char]] = 1. 69 sentence = sentence[:-1] 70print(char)
tono_1812👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/10/25 14:02

どの時点で、得られるべきデータが得られていないかを、デバッグ機能で確認してみてください。ちなみに、12というのは文字数のことではないですよね?
yep

2018/10/25 14:09 編集

エラーというわけではなく動きはするようですが、 $ python3 '/home/yudai/Desktop/src/keras_AE.py' Using TensorFlow backend. 朝霧 の 中 に 九段 の ともし 哉 corpus length: 20 total chars: 12 Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し '] Vectorization... Build model... /home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your `Model` call to the Keras 2 API: `Model(inputs=Tensor("in..., outputs=Tensor("de...)` autoencoder = Model(input=input_word, output=decoded)
yep

2018/10/25 14:07

うまく読み込められていないようです。
yep

2018/10/25 14:15

おそらくですが、text = poems[0]によってデータが一個しか入っていないという事でしょうか?
退会済みユーザー

退会済みユーザー

2018/10/25 14:23 編集

うーん、kerasについて無知なので的外れだと申し訳ないのですが、print('Build model...')以降のどこかで失敗しているのですよね?警告(UserWarning)のあたりが、関係していそうですが、そのあたりの文言でググってみると、対応策が見つかるかもしれませんよ?例えば、「keras_AE.py:54: UserWarning: Update your Model call to the Keras 2 API」とか。keras_AE.py:54の部分は、kerasを利用する人共通の部分だと思うので、検索ワードとして引っかかりそうです。また、UserWarning以降は、警告文なので検索ワードとして適切そうです。で、これ以降は、文字や記号でごちゃごちゃしているので、検索ワードとして不適切かと。
yep

2018/10/25 14:32

調べてみるとどうやら、このUserWarningは、問題ないようです。
退会済みユーザー

退会済みユーザー

2018/10/25 14:42

あ、text = poems[0] # 1個目のデータ と、ありますが、一文分しか実行されてないということはないですか?for文で回した方がいい気がしますが。これじゃなかったら私にはお手上げです。ごめんなさい。
yep

2018/10/25 14:52 編集

textをpoemsに変更。for文で回しcorpus length: 39069 total chars: 39065になりました。しかし、Value errorはあるので直していきたいと思います。
guest

回答1

0

自己解決

textをpoemsに変更。for文で回しcorpus length: 39069 total chars: 39065になりました。しかし、Value errorが残りました。

python

1with open(r'/home/yudai/Desktop/data/haiku.txt', encoding='utf-8') as f: 2 poems = f.readlines() 3 for p in poems: 4 s = p.rstrip() # 改行を除去 5 s = s.split(' ')

以前の「テキストを一行ずつ読み込みたい」より

その後、
ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)

decoded = Dense(12, activation='relu')(encoded)

decoded = Dense(39065, activation='relu')(encoded)

に修正すると、正常に学習できました。

投稿2018/10/25 22:38

編集2018/10/25 23:31
yep

総合スコア45

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/10/27 13:10

おめでとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問