質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python 3.x

    9799questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Keras

    472questions

文章が読み込まれません

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 254

yep

score 39

下記のコードで、3万9000件の文章データを入れているはずが、一文しか入っていないということになっています。

Using TensorFlow backend.
朝霧 の 中 に 九段 の ともし 哉 
corpus length: 20
total chars: 12
Sequences: ['朝霧', ' の', ' 中', ' に', ' 九', '段 ', 'の ', 'とも', 'し ']
Vectorization...
Build model...

原因を推測される方は何卒、宜しくお願いいたします。

追記:
textをpoemsに変えてみました。
すると、ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)となりました。

文章が表示される原因が、
print('Sequences:', sentences)
であることがわかりました。

/home/yudai/Desktop/src/keras_AE.py:54: UserWarning: Update your Model call to the Keras 2 API: Model(inputs=Tensor("in..., outputs=Tensor("de...)
autoencoder = Model(input=input_word, output=decoded)
は、
autoencoder = Model(inputs=input_word, outputs=decoded)
で解消されることがわかりました。

poem.txt

朝霧 の 中 に 九段 の ともし 哉 
あたたか な 雨 が 降る なり 枯葎 
菜の花 や は つと 明るき 町 は づれ 
秋風 や 伊予 へ 流る る 汐 の 音 
長閑 さ や 障子 の 穴 に 海 見え て 
若鮎 の 二 手 に なりて 上り けり 
行く 秋 を す つく と 鹿 の 立ち に けり 
我 声 の 風 に なり けり 茸狩 
毎年 よ 彼岸の入り に 寒い の は 
我宿 は 女 ばかり の あつ さ 哉 
妻 より は 妾 の 多し 門 涼み 
みちのく へ 涼み に 行く や 下駄 は い て 
夕立 や 殺生石 の あたり より 
稲妻 や 生血 したたる つるし 熊 
薪 を わる いもうと 一人 冬 籠 
絶えず 人 いこ ふ 夏野 の 石 一つ 
赤蜻蛉 筑波 に 雲 もなか り けり 
何となく 奈良 なつかし や 古 暦 
春 や 昔 十 五 万 石 の 城下 哉 
六月 を 奇麗 な 風 の 吹く こと よ 
夏 瘦 の 骨 に とどまる 命 か な 
行く 我 に とどまる 汝 に 秋 二つ 
柿 く へ ば 鐘 が 鳴る なり 法隆寺 
漱石 が 来 て 虚子 が 来 て 大 三十日
枯薄 ここら よ 昔 不破の関 
元日 の 人通り と は なり に けり 
春風 に こぼれ て 赤 し 歯磨粉 
春 の 夜 や 屏風 の 陰 に 物 の 息 
import numpy as np
import codecs
from keras.layers import Activation, Dense, Input
from keras.models import Model
import sys

#データの読み込み
with open(r'/home/hoge/Desktop/data/haiku.txt', encoding='utf-8') as f:
    poems = f.read().splitlines()
text = poems[0]  # 1個目のデータ
print(text)

# コーパスの長さ
print('corpus length:', len(text))
# 文字数を数えるため、textをソート
chars = sorted(list(set(text)))
# 全文字数の表示
print('total chars:', len(chars))
# 文字をID変換
char_indices = dict((c, i) for i, c in enumerate(chars))
# IDから文字へ変換
indices_char = dict((i, c) for i, c in enumerate(chars))
#テキストを17文字ずつ読み込む
maxlen = 2
#サンプルバッチ数
step = 2
sentences = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
#ベクトル化する
print('Vectorization...')
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
#モデルを構築する工程に入る
print('Build model...')
#encoderの次元
encoding_dim = 128
#入力用の変数
input_word = Input(shape=(maxlen, len(chars)))
#入力された語がencodeされたものを格納する
encoded = Dense(128, activation='relu')(input_word)
encoded = Dense(64, activation='relu')(encoded)
encoded = Dense(32, activation='relu')(encoded)
#潜在変数(実質的な主成分分析)
latent = Dense(8, activation='relu')(encoded)
#encodeされたデータを再構成
decoded = Dense(32, activation='relu')(latent)
decoded = Dense(64, activation='relu')(decoded)
decoded = Dense(12, activation='relu')(encoded)
autoencoder = Model(inputs=input_word, outputs=decoded)
# #Adamで最適化、loss関数をcategorical_crossentropy
autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy')
#モデルの構造を見る
autoencoder.summary()
#アレイサイズの確認
print(x.shape)
#autoencoderの実行
autoencoder.fit(x, x,
       epochs=50,
       batch_size=3,
       shuffle=False)

for i in range(17):
    x_haiku = np.zeros((1, maxlen, len(chars)))
    for t, char in enumerate(sentence):
        x_haiku[0,char_indices[char]] = 1.
        sentence = sentence[:-1]
print(char)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • yep

    2018/10/25 23:32

    調べてみるとどうやら、このUserWarningは、問題ないようです。

    キャンセル

  • ppn

    2018/10/25 23:42

    あ、text = poems[0] # 1個目のデータ と、ありますが、一文分しか実行されてないということはないですか?for文で回した方がいい気がしますが。これじゃなかったら私にはお手上げです。ごめんなさい。

    キャンセル

  • yep

    2018/10/25 23:52 編集

    textをpoemsに変更。for文で回しcorpus length: 39069
    total chars: 39065になりました。しかし、Value errorはあるので直していきたいと思います。

    キャンセル

回答 1

check解決した方法

0

textをpoemsに変更。for文で回しcorpus length: 39069 total chars: 39065になりました。しかし、Value errorが残りました。

with open(r'/home/yudai/Desktop/data/haiku.txt', encoding='utf-8') as f:
    poems = f.readlines()
    for p in poems:
        s = p.rstrip() # 改行を除去
        s = s.split(' ')


以前の「テキストを一行ずつ読み込みたい」より

その後、
ValueError: Error when checking target: expected dense_7 to have shape (2, 12) but got array with shape (2, 39065)

decoded = Dense(12, activation='relu')(encoded)


decoded = Dense(39065, activation='relu')(encoded)


に修正すると、正常に学習できました。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/27 22:10

    おめでとうございます!

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    9799questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Keras

    472questions