質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.09%

データセットクラス作成時の__init__や__getitem__の書き方がわからない

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 802

score 9

前提・実現したいこと

Python初心者です。

カスタムデータセットをトレーニングデータセットとテストデータセットに分割したいと考えていますが、
データセットクラス作成時の_init_や_getitem_の書き方がよくわかりません。

欠けている情報ございましたら補足いたします。
よろしくお願いいたします。

発生している問題・エラーメッセージ

$ python AlexNet.py 
Traceback (most recent call last):                                                                                                                                      
  File "AlexNet.py", line 118, in <module>
    for i, (images, labels) in enumerate(train_loader):
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 582, in __next__
    return self._process_next_batch(batch)
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 606, in _process_next_batch
    raise Exception("KeyError:" + batch.exc_msg)
Exception: KeyError:Traceback (most recent call last):
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/_utils/worker.py", line 99, in _worker_loop
    samples = collate_fn([dataset[i] for i in batch_indices])
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/_utils/worker.py", line 99, in <listcomp>
    samples = collate_fn([dataset[i] for i in batch_indices])
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataset.py", line 107, in __getitem__
    return self.dataset[self.indices[idx]]
  File "AlexNet.py", line 31, in __getitem__
    image = self.data[idx]["image"]
KeyError: 'image'

該当のソースコード

import torch
import torchvision
import torch.nn as nn
import torch.nn.init as init
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as transforms
import numpy as np
from matplotlib import pyplot as plt
from skimage import io, transform

from torch.utils.data import Dataset
from dataset import CLASS_MAP
import dataset

CLASS_MAP = {"CN": 0, "AD": 1, "LMCI": 2, "MCI": 3}

class BrainData(Dataset):
    def __init__(self, data, transform=None, class_map=CLASS_MAP):
        self.data = data
        self.class_map = class_map
        self.transform = transform

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        if torch.is_tensor(idx):
            idx = idx.tolist()

        image = self.data[idx]["image"]
        label = self.class_map[self.data[idx]["label"]]
        sample = {'image': image, "label": label}

        return sample

data = dataset.load_data(["ADNI2"])
data_set = BrainData(data, CLASS_MAP)

n_train = int(len(data_set) * 0.8)
n_val = int(len(data_set) - n_train)

train_dataset, val_dataset = torch.utils.data.random_split(data_set, [n_train, n_val])

train_loader = torch.utils.data.DataLoader(
    train_dataset, batch_size=64, shuffle=True, num_workers=4)

val_loader = torch.utils.data.DataLoader(
        val_dataset, batch_size=64, shuffle=False, num_workers=4)

# set data loader
train_loader = torch.utils.data.DataLoader(
      dataset=train_dataset,
      batch_size=64, 
      shuffle=True,
      num_workers=4)

val_loader = torch.utils.data.DataLoader(
      dataset=val_dataset,
      batch_size=64, 
      shuffle=False,
      num_workers=4)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

getitem や init はしっかり書けています。
エラーを見ると

KeyError: 'image'

とあります。
これは、

data_set[i]


とされたとき、data_setdataのi番目のディクショナリ型の配列にimageというKeyが存在しないということです。
一度、dataを標準出力に出してみるなどして、dataがどのような構造になっているのかを確認してみてください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/05/30 20:31

    "print(data)"
    {'uid': 363336, 'pid': '041_S_5082', 'label': 'SMC', 'nu_label': 5, 'path': PosixPath('/home/radiology_datas/JHU-radiology/20170509/SMC/041_S_5082/half_brain_flipRL_ADNI_041_S_5082_MR_MT1__GradWarp__N3m_Br_20130314162621463_S182655_I363336_MNI.pkl'), 'voxel': array([[[0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    ...,
       (略)
    ...,
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.],
    [0., 0., 0., ..., 0., 0., 0.]]], dtype=float32)}]

    "print(type(data))"
    <class 'numpy.ndarray'>

    ご返信ありがとうございます。
    dataは上記のようになっています。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.09%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る