質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.61%

説明変数複数行に対して目的変数を1行として読み込ませたいが、説明変数の入力範囲が大きく被ってしまう。

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 373

minico

score 5

前提・実現したいこと

Python初心者です。
Python3(TensorFlow,Keras)で、予測プログラムを作成しています。
「PythonとKerasによるディープラーニング」(マイナビ出版)
Francoius Chollet[著] 株式会社クイープ[訳] 巣籠悠輔[監訳]
のサンプルコードを元に作っています。
180個×6種類の説明変数から1つの目的変数を出力したいのですが、下の出力のように、説明変数の入力範囲が大きく被ってしまっています。
env_dataは説明変数が入っているデータ(54000,6)で、ea_dataは目的変数が入っているデータ(300,1)です。
説明変数180行に対して目的変数が1行となっているため、行数が異なっています。
env_dataはインデックス0~27000を訓練データ、27001~54000を検証データとして使っています。
訓練データと検証データの分け方を1:1としてしまいましたが、後ほど7:3や8:2などに修正する予定です。

読み込んでいる範囲

range(27001, 27181, 6)
range(27002, 27182, 6)
range(27003, 27183, 6)
range(27004, 27184, 6)
range(27005, 27185, 6)
range(27006, 27186, 6)
range(27007, 27187, 6)
range(27008, 27188, 6)
range(27009, 27189, 6)
range(27010, 27190, 6)
range(27011, 27191, 6)
range(27012, 27192, 6)
range(27013, 27193, 6)
...
range(53636, 53816, 6)
range(53637, 53817, 6)
range(53638, 53818, 6)
range(53639, 53819, 6)
range(53640, 53820, 6)

該当のソースコード(一部)

def generator(env_data, ea_data, lookback, min_index, max_index,
              shuffle=False, batch_size=60, step=6):
    if max_index is None:
        max_index = len(env_data) - 1
    i = min_index + lookback
    while 1:
        if shuffle:
            rows = np.random.randint(
                min_index + lookback, max_index, size=batch_size)
        else:
            if i + batch_size >= max_index:
                i = min_index + lookback
            rows = np.arange(i, min(i + batch_size, max_index))
            i += len(rows)

        samples = np.zeros((len(rows),
                           lookback // step,
                           env_data.shape[-1]))
        targets = np.zeros((len(rows),))
        for j, row in enumerate(rows):
            indices = range(rows[j] - lookback, rows[j], step)
            print(indices)
            samples[j] = env_data[indices]
            targets[j] = ea_data[j]
        yield samples, targets

lookback = 180
step = 6
batch_size = 60

train_gen = generator(env_data,
                      ea_data,
                      lookback=lookback,
                      min_index=0,
                      max_index=27000,
                      step=step, 
                      batch_size=batch_size)
val_gen = generator(env_data,
                    ea_data,
                    lookback=lookback,
                    min_index=27001,
                    max_index=54000,
                    step=step,
                    batch_size=batch_size)

試したこと

①forループに新たにk = j * 180を追加し、説明変数の読み込みに使用

forループを以下のように変更しました。

for j, row in enumerate(rows):
            k = j * 180
            indices = range(rows[k] - lookback, rows[k], step)
            print(indices)
            samples[j] = env_data[indices]
            targets[j] = ea_data[j]
        yield samples, targets


すると、以下のような出力、エラーが出ました。

range(27001, 27181, 6)

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-19-043d54e5430b> in <module>
----> 1 evaluate_naive_method()

<ipython-input-18-1d90892e791a> in evaluate_naive_method()
      4     batch_maes = []
      5     for step in range(val_steps):
----> 6         samples, targets = next(val_gen)
      7         preds = samples[:, -1, 1]
      8         #全バッチのindex(-1,1)部分を抽出。つまりベクトル型となりtargetsと同型

<ipython-input-16-201bb8db6b0a> in generator(env_data, ea_data, lookback, min_index, max_index, shuffle, batch_size, step)
     20         for j, row in enumerate(rows):
     21             k = j * 180
---> 22             indices = range(rows[k] - lookback, rows[k], step)
     23             print(indices)
     24             samples[j] = env_data[indices]

IndexError: index 180 is out of bounds for axis 0 with size 60
②forループの中の変数indicesでrowsを使うのをやめてみた

rowsがよくわからないのでやめてみました…。

 for j, row in enumerate(rows):
            k = j * 180
            indices = range(min_index + k, min_index + k + lookback, step)
            print(indices)
            samples[j] = env_data[indices]
            targets[j] = ea_data[j]
        yield samples, targets


すると、以下のような出力、エラーが出ました。

range(27001, 27181, 6)
range(27181, 27361, 6)
range(27361, 27541, 6)
...
range(53461, 53641, 6)
range(53641, 53821, 6)
range(53821, 54001, 6)
range(54001, 54181, 6)

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-23-043d54e5430b> in <module>
----> 1 evaluate_naive_method()

<ipython-input-22-1d90892e791a> in evaluate_naive_method()
      4     batch_maes = []
      5     for step in range(val_steps):
----> 6         samples, targets = next(val_gen)
      7         preds = samples[:, -1, 1]
      8         #全バッチのindex(-1,1)部分を抽出。つまりベクトル型となりtargetsと同型

<ipython-input-20-b4ae8a01afe2> in generator(env_data, ea_data, lookback, min_index, max_index, shuffle, batch_size, step)
     22             indices = range(min_index + k, min_index + k + lookback, step)
     23             print(indices)
---> 24             samples[j] = env_data[indices]
     25             targets[j] = ea_data[j]
     26         yield samples, targets

IndexError: index 54001 is out of bounds for axis 0 with size 54000


env_dataの形は(54000,6)なので、意味はわかりますが、無限に続いてしまっているようです。

③ ②のコードにwhileを追加

②で起こった問題を解決するために、以下のようにwhileを追加しました。

 for j, row in enumerate(rows):
            k = j * 180
            l = min_index + k
            if l + lookback <= max_index + 1:
                indices = range(l, l +lookback, step)
                print(indices)
                samples[j] = env_data[indices]
                targets[j] = ea_data[j]
        yield samples, targets


すると、以下のような出力が出ました。

range(27001, 27181, 6)
range(27181, 27361, 6)
range(27361, 27541, 6)
range(27541, 27721, 6)
range(27721, 27901, 6)
...
range(37261, 37441, 6)
range(37441, 37621, 6)
range(37621, 37801, 6)
range(27001, 27181, 6)
range(27181, 27361, 6)
...
range(37621, 37801, 6)
range(27001, 27181, 6)
range(27181, 27361, 6)
...
...
range(37261, 37441, 6)
range(37441, 37621, 6)
range(37621, 37801, 6)


このように、range(37621, 37801, 6)まで読み込んだ後に再びrange(27001, 27181, 6)から読み込むというループになっていました。上記の出力結果では省略しましたが、数え切れないくらい繰り返していました。初めに回したときは、同じように繰り返していましたが、終わりがrange(53821, 54001, 6)となっていました。しかし、再び回すと終わりがrange(37621, 37801, 6)となってしまい、それ以降何度回し直しても終わりがrange(37621, 37801, 6)となります。コードは変えていません。

また、初めのコードでもそうでしたが、出力されるrangeのスタートが検証データのスタートのインデックスとなっているのですが、これで正しいのでしょうか…。

補足情報(FW/ツールのバージョンなど)

Python3.7.3

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • nandymak

    2019/10/05 22:55

    「PythonとKerasによるディープラーニング」(マイナビ出版)が今手元に無いのですが、

    >env_dataは説明変数が入っているデータ(54000,6)で、ea_dataは目的変数が入っているデータ(300,1)です。
    env_dataは54000行の教師有りのサンプルデータで、ea_dataには各行の回答が入っているのでしょうか?
    そうするとenv_dataとea_dataの行数は等しくないといけないのでは無いでしょうか?

    >env_dataはインデックス0~27000を訓練データ、27001~54000を検証データとして使っています。
    env_dataをtrainとtestに27000行毎に分割するのでしょうか?
    普通、trainとtestは7:3とか8:2位に分割するのでは?

    本も読まず書いているので、勘違いしているかも知れません。

    明日、帰宅すれば本が見れるので、該当の章(ページ)も教えていただけますか?

    キャンセル

  • minico

    2019/10/06 20:32

    >env_dataは54000行の教師有りのサンプルデータで、ea_dataには各行の回答が入っているのでしょうか?そうするとenv_dataとea_dataの行数は等しくないといけないのでは無いでしょうか?
    ea_dataには回答が入っていますが、env_data各行の回答ではなく、env_data180行のまとまりに対し回答はea_data1行となっています。これは実験データを使用しているためです。env_dataには10秒ごとに計測した物理環境データ(温度、湿度、風速など)が入っています。ea_dataには30分ごとのアンケートの結果を数値化したものが入っています。そのため行数が異なっています。

    >env_dataをtrainとtestに27000行毎に分割するのでしょうか?普通、trainとtestは7:3とか8:2位に分割するのでは?
    おっしゃる通りです。プログラムを回すことに成功したら分割の割合を修正しようと思っていましたが、やはり普通ではないので、後程修正したいと思います。

    元のサンプルコードが載っているのは、6章のP.217~235です。

    キャンセル

回答 1

checkベストアンサー

0

>env_dataは54000行の教師有りのサンプルデータで、ea_dataには各行の回答が入っているのでしょうか?そうするとenv_dataとea_dataの行数は等しくないといけないのでは無いでしょうか?
ea_dataには回答が入っていますが、env_data各行の回答ではなく、env_data180行のまとまりに対し回答はea_data1行となっています。これは実験データを使用しているためです。env_dataには10秒ごとに計測した物理環境データ(温度、湿度、風速など)が入っています。ea_dataには30分ごとのアンケートの結果を数値化したものが入っています。そのため行数が異なっています。

env_dataとea_dataの行数は等しくなければなりません。
env_dataの180行ごとにea_dataの1行が割り当てられているのであれば、
ea_dataを180倍にコピーする必要があります。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/13 11:56

    わかりました。回答ありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.61%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • トップ
  • Pythonに関する質問
  • 説明変数複数行に対して目的変数を1行として読み込ませたいが、説明変数の入力範囲が大きく被ってしまう。