質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.04%

kerasで同じコードでIndexErrorとAttributeErrorがでます

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 950

yep

score 43

文章を学習するdeep autoencoderを書こうと試みています。
しかし、

C:\Users\yudai\Desktop\keras_AE.py:62: UserWarning: Update your `Model` call to the Keras 2 API: `Model(inputs=Tensor("in..., outputs=Tensor("de...)`
  autoencoder = Model(input=input_word, output=decoded)
Traceback (most recent call last):
  File "C:\Users\yudai\Desktop\keras_AE.py", line 70, in <module>
    shuffle=False)
  File "C:\Users\yudai\Anaconda3\envs\pyMLgpu\lib\site-packages\keras\engine\training.py", line 1039, in fit
    validation_steps=validation_steps)
  File "C:\Users\yudai\Anaconda3\envs\pyMLgpu\lib\site-packages\keras\engine\training_arrays.py", line 139, in fit_loop
    if issparse(ins[i]) and not K.is_sparse(feed[i]):
IndexError: list index out of range

と出力されます。
もし原因がわかる方がいらっしゃるならば、
何卒、ご教授宜しくお願い致します。
スタックオーバーフローでも質問しています。
マルチポストです。すみません。

追記:
https://github.com/keras-team/keras/issues/7602
より

autoencoder = Model(input=input_word, output=decoded)


autoencoder = Model(inputs=input_word, output=decoded)


に直しました。
しかし、同じエラーが出ます。

違うWindows 10のPCでは、
python 3.6.5
tensorflow 1.8.0
keras 2.1.5

C:\Users\hoge\Desktop\keras_AE.py:62: UserWarning: Update your Model call to the Keras 2 API: Model(inputs=Tensor("in..., outputs=Tensor("de...)
autoencoder = Model(input=input_word, output=decoded)
Traceback (most recent call last):
File "C:\Users\hoge\Desktop\keras_AE.py", line 70, in 
shuffle=False)
File "C:\Program Files (x86)\Microsoft Visual Studio\Shared\Anaconda3_64\lib\site-packages\keras\engine\training.py", line 1630, in fit
batch_size=batch_size)
File "C:\Program Files (x86)\Microsoft Visual Studio\Shared\Anaconda3_64\lib\site-packages\keras\engine\training.py", line 1487, in _standardize_user_data
in zip(y, sample_weights, class_weights, self._feed_sample_weight_modes)]
File "C:\Program Files (x86)\Microsoft Visual Studio\Shared\Anaconda3_64\lib\site-packages\keras\engine\training.py", line 1486, in 
for (ref, sw, cw, mode)
File "C:\Program Files (x86)\Microsoft Visual Studio\Shared\Anaconda3_64\lib\site-packages\keras\engine\training.py", line 540, in _standardize_weights
return np.ones((y.shape[0],), dtype=K.floatx())
AttributeError: 'NoneType' object has no attribute 'shape'


が同じコードで違うエラーがでます。

# -*- coding: utf-8 -*-
from keras.layers import Input, Dense
from keras.layers.core import Activation
from keras.models import Model
from keras.utils.data_utils import get_file
import numpy as np
import codecs

#データの読み込み
with codecs.open(r'C:\Users\yudai\Desktop\poem.txt', 'r', 'utf-8') as f:
    for text in f:
        text = text.strip()
#コーパスの長さ
print('corpus length:', len(text))
#文字数を数えるため、textをソート
chars = sorted(list(set(text)))
#全文字数の表示
print('total chars:', len(chars))
#文字をID変換
char_indices = dict((c, i) for i, c in enumerate(chars))
#IDから文字へ変換
indices_char = dict((i, c) for i, c in enumerate(chars))
#テキストを17文字ずつ読み込む
maxlen = 17
#サンプルバッチ数
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
#学習する文字数を表示
print('Sequences:', len)

#ベクトル化する
print('Vectorization...')
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1

#モデルを構築する工程に入る
print('Build model...')
#encoderの次元
encoding_dim = 128
#入力用の変数
input_word = Input(shape=(maxlen, len(chars)))
#入力された語がencodeされたものを格納する
encoded = Dense(128, activation='relu')(input_word)
encoded = Dense(64, activation='relu')(encoded)
encoded = Dense(32, activation='relu')(encoded)
#潜在変数(実質的な主成分分析)
latent = Dense(8, activation='relu')(encoded)
#encodeされたデータを再構成
decoded = Dense(32, activation='relu')(latent)
decoded = Dense(64, activation='relu')(decoded)
decoded = Dense(128, activation='relu')(encoded)

output = Dense(100, activation='relu')

autoencoder = Model(input=input_word, output=decoded)
#Adamで最適化、loss関数をcategorical_crossentropy
autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy')

#autoencoderの実行
autoencoder.fit(x,
                epochs=1000,
                batch_size=256,
                shuffle=False)
#学習の進み具合を観察
def on_epoch_end(epochs):
    print()
    print('Epoch: %d' % epochs)

#モデルの構造を保存
model_json = autoencoder.to_json()
with open('keras_AE.json', 'w') as json_file:
    json_file.write(model_json)
#学習済みモデルの重みを保存
autoencoder.save_weights('AE.h5')

decoded_word = autoencoder.predict(word_test)

X_embedded = model.predict(X_train)
autoencoder.fit(X_embedded,X_embedded,epochs=10,
            batch_size=256, validation_split=.1)


C:\Users\yudai\Desktop\poem.txtは、webから俳句を29000件集め、MeCabで形態素解析しております。
例:
朝霧 の 中 に 九段 の ともし 哉
あたたか な 雨 が 降る なり 枯葎
菜の花 や は つと 明るき 町 は づれ
秋風 や 伊予 へ 流る る 汐 の 音
長閑 さ や 障子 の 穴 に 海 見え て
若鮎 の 二 手 に なりて 上り けり
行く 秋 を す つく と 鹿 の 立ち に けり
我 声 の 風 に なり けり 茸狩
毎年 よ 彼岸の入り に 寒い の は

環境

Windows 10

python 3.7.0
tensorflow-gpu 1.9.0
keras 2.2.4

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • tiitoi

    2018/10/23 17:37

    モデルに流す入力データの問題なので、poem.txt の中身 (沢山ある場合は数行だけでも) がないと回答するのは難しいと思います。

    キャンセル

  • yep

    2018/10/23 18:12

    すみません。付け加えておきました。

    キャンセル

  • yep

    2018/10/23 19:23 編集

    入力データの問題かどうかを調べるため、上に示しているpoem.txtのように漢字空間あり、漢字空間なし、ひらがな空間あり、ひらがな空間なし、また、それぞれ行替えでありなしを試してみましたが、すべて同じエラーがでてしまいます。

    キャンセル

回答 1

checkベストアンサー

+1

まず AutoEncoder は入力と出力を同じデータにして学習するものですよね。
なので、入力が正解データでもあるわけで、fit(x) と入力しか渡していないため、'NoneType' object has no attribute 'shape' とエラーになっています。

以下のようにしましょう。

autoencoder.fit(x, x,
                epochs=1000,
                batch_size=256,
                shuffle=False)

次に入力に対して、入力と同じデータを出力させたいわけなので、出力層の形状を

decoded = Dense(128, activation='relu')(encoded)

ではなく、入力と同じ以下のようにする必要があります。

decoded = Dense(12, activation='relu')(encoded)
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_7 (InputLayer)         (None, 17, 12)            0         
_________________________________________________________________
dense_48 (Dense)             (None, 17, 128)           1664      
_________________________________________________________________
dense_49 (Dense)             (None, 17, 64)            8256      
_________________________________________________________________
dense_50 (Dense)             (None, 17, 32)            2080      
_________________________________________________________________
dense_54 (Dense)             (None, 17, 12)            396       
=================================================================
Total params: 12,396
Trainable params: 12,396
Non-trainable params: 0
_________________________________________________________________

これでエラーはなくなり、一応動くようになります。
が、学習自体はうまくいっていないようです。自分は自然言語処理は門外漢なため、学習ができない原因やそもそもやろうとしているアプローチが正しいのかについては、すみませんが、アドバイスできません。

 追記

朝霧 の 中 に 九段 の ともし 哉
あたたか な 雨 が 降る なり 枯葎
菜の花 や は つと 明るき 町 は づれ
秋風 や 伊予 へ 流る る 汐 の 音
長閑 さ や 障子 の 穴 に 海 見え て
若鮎 の 二 手 に なりて 上り けり
行く 秋 を す つく と 鹿 の 立ち に けり
我 声 の 風 に なり けり 茸狩
毎年 よ 彼岸の入り に 寒い の は
import numpy as np
import codecs
from keras.layers import Activation, Dense, Input
from keras.models import Model

#データの読み込み
with open(r'test.txt', encoding='utf-8') as f:
    poems = f.read().splitlines()
text = poems[0]  # 1個目のデータ
print(text)

# コーパスの長さ
print('corpus length:', len(text))

# 文字数を数えるため、textをソート
chars = sorted(list(set(text)))

# 全文字数の表示
print('total chars:', len(chars))

# 文字をID変換
char_indices = dict((c, i) for i, c in enumerate(chars))

# IDから文字へ変換
indices_char = dict((i, c) for i, c in enumerate(chars))

#テキストを17文字ずつ読み込む
maxlen = 17
#サンプルバッチ数
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
#学習する文字数を表示
print('Sequences:', sentences)
print('next_chars:', next_chars)

#ベクトル化する
print('Vectorization...')
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1

#モデルを構築する工程に入る
print('Build model...')
#encoderの次元
encoding_dim = 128
#入力用の変数
input_word = Input(shape=(maxlen, len(chars)))
#入力された語がencodeされたものを格納する
encoded = Dense(128, activation='relu')(input_word)
encoded = Dense(64, activation='relu')(encoded)
encoded = Dense(32, activation='relu')(encoded)
#潜在変数(実質的な主成分分析)
latent = Dense(8, activation='relu')(encoded)
#encodeされたデータを再構成
decoded = Dense(32, activation='relu')(latent)
decoded = Dense(64, activation='relu')(decoded)
decoded = Dense(12, activation='relu')(encoded)
autoencoder = Model(input=input_word, output=decoded)
# #Adamで最適化、loss関数をcategorical_crossentropy
autoencoder.compile(optimizer='Adam', loss='categorical_crossentropy')
autoencoder.summary()

print(x.shape)
# #autoencoderの実行
autoencoder.fit(x, x,
                epochs=1000,
                batch_size=256,
                shuffle=False)

#モデルの構造を保存
model_json = autoencoder.to_json()
with open('keras_AE.json', 'w') as json_file:
    json_file.write(model_json)
#学習済みモデルの重みを保存
autoencoder.save_weights('AE.h5')

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/23 21:34

    Ubuntu 16.04 です。途中で変数名変えたりして、それが残っていてコードが動かない状態になってました。失礼しました。
    もとに戻しましたので、これでどうでしょうか。

    キャンセル

  • 2018/10/23 21:43

    うわぁ!すごい!感動しました!

    キャンセル

  • 2018/10/23 22:42

    度重なるエラーの中、本当に丁寧にありがとうございました。エラー処理の方法についても教えていただき勉強になりました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る