データセットクラス作成時の__init__や__getitem_

前提・実現したいこと

Python初心者です。

カスタムデータセットをトレーニングデータセットとテストデータセットに分割したいと考えていますが、
データセットクラス作成時の_init_や_getitem_の書き方がよくわかりません。

欠けている情報ございましたら補足いたします。
よろしくお願いいたします。

発生している問題・エラーメッセージ

$ python AlexNet.py 
Traceback (most recent call last):                                                                                                                                      
  File "AlexNet.py", line 118, in <module>
    for i, (images, labels) in enumerate(train_loader):
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 582, in __next__
    return self._process_next_batch(batch)
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 606, in _process_next_batch
    raise Exception("KeyError:" + batch.exc_msg)
Exception: KeyError:Traceback (most recent call last):
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/_utils/worker.py", line 99, in _worker_loop
    samples = collate_fn([dataset[i] for i in batch_indices])
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/_utils/worker.py", line 99, in <listcomp>
    samples = collate_fn([dataset[i] for i in batch_indices])
  File "/home/selen/.pyenv/versions/3.7.3/lib/python3.7/site-packages/torch/utils/data/dataset.py", line 107, in __getitem__
    return self.dataset[self.indices[idx]]
  File "AlexNet.py", line 31, in __getitem__
    image = self.data[idx]["image"]
KeyError: 'image'

該当のソースコード

Python
1import torch
2import torchvision
3import torch.nn as nn
4import torch.nn.init as init
5import torch.optim as optim
6import torch.nn.functional as F
7import torchvision.transforms as transforms
8import numpy as np
9from matplotlib import pyplot as plt
10from skimage import io, transform
11
12from torch.utils.data import Dataset
13from dataset import CLASS_MAP
14import dataset
15
16CLASS_MAP = {"CN": 0, "AD": 1, "LMCI": 2, "MCI": 3}
17
18class BrainData(Dataset):
19    def __init__(self, data, transform=None, class_map=CLASS_MAP):
20        self.data = data
21        self.class_map = class_map
22        self.transform = transform
23
24    def __len__(self):
25        return len(self.data)
26
27    def __getitem__(self, idx):
28        if torch.is_tensor(idx):
29            idx = idx.tolist()
30        
31        image = self.data[idx]["image"]
32        label = self.class_map[self.data[idx]["label"]]
33        sample = {'image': image, "label": label}
34        
35        return sample
36
37data = dataset.load_data(["ADNI2"])
38data_set = BrainData(data, CLASS_MAP)
39
40n_train = int(len(data_set) * 0.8)
41n_val = int(len(data_set) - n_train)
42
43train_dataset, val_dataset = torch.utils.data.random_split(data_set, [n_train, n_val])
44    
45train_loader = torch.utils.data.DataLoader(
46    train_dataset, batch_size=64, shuffle=True, num_workers=4)
47
48val_loader = torch.utils.data.DataLoader(
49        val_dataset, batch_size=64, shuffle=False, num_workers=4)
50
51# set data loader
52train_loader = torch.utils.data.DataLoader(
53      dataset=train_dataset,
54      batch_size=64, 
55      shuffle=True,
56      num_workers=4)
57
58val_loader = torch.utils.data.DataLoader(
59      dataset=val_dataset,
60      batch_size=64, 
61      shuffle=False,
62      num_workers=4)

行動規範の内容に同意します

回答1件

ベストアンサー

getitem や init はしっかり書けています。
エラーを見ると

KeyError: 'image'

とあります。
これは、

python3
1data_set[i]

とされたとき、data_setのdataのi番目のディクショナリ型の配列にimageというKeyが存在しないということです。
一度、dataを標準出力に出してみるなどして、dataがどのような構造になっているのかを確認してみてください。

投稿2020/05/30 10:48

Luke02561

総合スコア404

Hiro051

2020/05/30 11:31

"print(data)" {'uid': 363336, 'pid': '041_S_5082', 'label': 'SMC', 'nu_label': 5, 'path': PosixPath('/home/radiology_datas/JHU-radiology/20170509/SMC/041_S_5082/half_brain_flipRL_ADNI_041_S_5082_MR_MT1__GradWarp__N3m_Br_20130314162621463_S182655_I363336_MNI.pkl'), 'voxel': array([[[0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.], ..., 　　　(略) ..., [0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.]]], dtype=float32)}] "print(type(data))" <class 'numpy.ndarray'> ご返信ありがとうございます。 dataは上記のようになっています。

行動規範の内容に同意します