（強化学習）keras 学習時の教師データはintのリストじゃないとだめなんですか？

出ているエラー
train_on_batch　でエラーがでる

試したこと
エラーの原因を探したのですがとくに見当たらず

kerasのfit　もしくはtrain_on_batch　の教師データはflort型ではだめなのですか？

NAFという連続値の出力の強化学習を試してます
インプットは画像データ　　　　　　4004003
下のmodelのアウトプット(net_q)　　1
教師データのtypeはnumpy.ndarray

        for i, (state_b, action_b, reward_b, next_state_b) in enumerate(batch_memory.buffer):
            inputs[i:i + 1] = [state_b,action_b]#------------
            target=reward_b+gamma*targetQN.net_v.train_on_batch(next_state_b)[0]
            targets[i] = target  # 教師信号
            self.net_q.train_on_batch(inputs, targets)

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-1-ef54f3625b95> in <module>
    358                 memory_TDerror.update_TDerror(memory, gamma, mainQN, targetQN,multireward_steps)
    359                 for _ in range(t):
--> 360                     mainQN.pioritized_experience_replay(memory, batch_size, gamma, targetQN, memory_TDerror, state_size=state_, action_size=action_size)
    361             targetQN = mainQN  # 行動決定と価値計算をおなじにする
    362 

<ipython-input-1-ef54f3625b95> in pioritized_experience_replay(self, memory, batch_size, gamma, targetQN, memory_TDerror, state_size, action_size)
    247             targets[i] = target  # 教師信号
    248             print(targets[i])
--> 249             self.net_q.train_on_batch(inputs, targets)
    250 #memoriiiiiiiiiiiiiiiiiiiiiiiiii----------------------------------------------------------------------------
    251 class Memory:

c:\users\pc_user\anaconda3\envs\ml-agents\lib\site-packages\keras\engine\training.py in train_on_batch(self, x, y, sample_weight, class_weight, reset_metrics)
   1506             x, y,
   1507             sample_weight=sample_weight,
-> 1508             class_weight=class_weight)
   1509         if self._uses_dynamic_learning_phase():
   1510             ins = x + y + sample_weights + [1]

c:\users\pc_user\anaconda3\envs\ml-agents\lib\site-packages\keras\engine\training.py in _standardize_user_data(self, x, y, sample_weight, class_weight, check_array_lengths, batch_size)
    577             feed_input_shapes,
    578             check_batch_axis=False,  # Don't enforce the batch size.
--> 579             exception_prefix='input')
    580 
    581         if y is not None:

c:\users\pc_user\anaconda3\envs\ml-agents\lib\site-packages\keras\engine\training_utils.py in standardize_input_data(data, names, shapes, check_batch_axis, exception_prefix)
     97         data = data.values if data.__class__.__name__ == 'DataFrame' else data
     98         data = [data]
---> 99     data = [standardize_single_array(x) for x in data]
    100 
    101     if len(data) != len(names):

c:\users\pc_user\anaconda3\envs\ml-agents\lib\site-packages\keras\engine\training_utils.py in <listcomp>(.0)
     97         data = data.values if data.__class__.__name__ == 'DataFrame' else data
     98         data = [data]
---> 99     data = [standardize_single_array(x) for x in data]
    100 
    101     if len(data) != len(names):

c:\users\pc_user\anaconda3\envs\ml-agents\lib\site-packages\keras\engine\training_utils.py in standardize_single_array(x)
     32                 'Got tensor with shape: %s' % str(shape))
     33         return x
---> 34     elif x.ndim == 1:
     35         x = np.expand_dims(x, 1)
     36     return x

AttributeError: 'list' object has no attribute 'ndim'

tiitoi

2020/05/16 03:58

list オブジェクトになってると言われているので、numpy 配列になっていないのでは？各要素がリストの numpy 配列になっていたりしてもダメです。

Flan.

2020/05/16 13:15

教師データはnumpy配列のリストではないのですか？

tiitoi

2020/05/16 13:45 編集

教師データは numpy のリストですよ AttributeError: 'list' object has no attribute 'ndim' とエラーになっているのだから、入力が numpy 配列になっていない、または numpy 配列にはなっているけど、各要素はリストになっている可能性があります。例えば、入れ子の配列の長さがバラバラの場合、np.array() で numpy 配列に変換しても各要素はリストのままです。 a = np.array([[1, 2], [1, 2, 3], [1, 2, 3, 4]]) print(type(a), type(a[0])) # <class 'numpy.ndarray'> <class 'list'>

Flan.

2020/05/17 14:55

バッチサイズ＊[アクション1、アクション２]ではないのですか？アクション１　400*400*3 アクション２　２

tiitoi

2020/05/17 14:58

質問の断片的なコードからは具体的な原因はわからないです。コメントにあるように入力が2つあるなら、入力層は2つ用意するべきなのではないでしょうか。

Flan.

2020/05/17 15:12 編集

用意してますよ？だからtrain_on_batch（入力データ　教師データ）であってますよね？入力データは　 [[アクション1、アクション２], [アクション1、アクション２], [アクション1、アクション２], . . 　　　　　　バッチサイズ個 . [アクション1、アクション２]] ではないのですか？

tiitoi

2020/05/17 15:27 編集

[[アクション1、アクション２], ... [アクション1、アクション２]] ではなく、[アクション1のミニバッチ, アクション2のミニバッチ]、つまり、[(バッチサイズ, 400, 400 3) の numpy 配列, (バッチサイズ, 2) の numpy 配列] と2つの numpy 配列のリストになっているべきではないでしょうか