質問編集履歴

コードをかなり編集しました。どうかお願いします。

2020/08/07 07:05

投稿

oinari03

スコア59

test CHANGED Viewed

	@@ -1 +1 @@
1	- pytorchで自作データセットを作成したいがgetitem~~や前処理、lable~~の~~付与の仕方~~が~~わからない~~
1	+ pytorchで自作データセットを作成し画像の分類をしたい（init,len,getitemのながれ）

test CHANGED Viewed

@@ -6,63 +6,35 @@
 ### やりたいこと
 ・cifer10の画像分類問題を自分で集めた画像だけで実装したい
 ・フォルダにあるいくつかの画像を分類し、ラベルを付与することです。
-思っている構想があって（ほかの方法があったら教えてください！）
+ディレクトリ構成（train:val=7:3）
-今回聞きたいのはひとまずですが、どのようにlabelになる部分を作成すればいいのかということです。まったくわかりません。
-＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿以下構想＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
-・スクレイピングで画像収集（とりあえずは100枚ほどで考えています）
+```ここに言語を入力
-・収集したデータを手動で分類(dataというディレクトリの中にcatというディレクトリをいれ、さらにtrainというディレクトリ、testというディレクトリに画像を分類。比率は7:3くらい)する予定です。catだけでなくdog,human,carなどのパターンも増やす予定です。
-・trainに前処理を施して画像をきれいにしていきます。
+├─animal_dataset
-ここからが全然想像できないので困っています。流れが見えてきません。
+   ├─train
-・具体的にはdatasetのclassを継承してinit,len,getitemという関数に分けてという処理をよくめにするので、説明のためにもそのように分けたいと考えています
-・しかしどのようにlabelを用意して,どのように画像と紐づけするのかがわかりません(cifer10の画像分類チュートリアルのようにclassesの中に入れる形式をするとよいのかそれともcsvなのかjsonなのか)
-・はたまたそのときの書き方がわかりません。csvの書き方自体はググれば出てきそうですが、datasetになりうるcsvファイルの書き方だったり、jsonの書き方だったりはなかなか出てこないです
-### やったこと（理解しいない可能性あり）
+   │  ├─cat（70枚くらい）
-・cifer10での画像分類チュートリアルを通したりして中身を確認した（ただnetworkの部分特にlabelを付与するところが理解できませんでした）
-・画像をスクレイピングで集めて正規化するところまでは確認した（composeなどを利用した）
-・いくつかのサイトを参考にひな型を作成した
-結果的にまだまだ流れがつかめてないです。。。。
+   │  └─dog(70枚くらい)
+   └─val
+       ├─cat(30枚くらい)
+       └─dog(30枚くらい)
+```
@@ -74,17 +46,31 @@
 ・スクレイピングの処理は省いています
+・前処理としてtrainとvalそれぞれにかける
+・データセットを作成する。
+・initの中身にからのdataとlabelを用意する
+・画像を呼び出す処理をする？？
+・for分とif文でディレクトリ名？が一致していたら0/1で場合分けしてlabelのlistに格納
+・これで呼び出すときlabelとして機能する？
+・lenでデータ数を返す
-・data/data_resizeに猫の画像が100枚入っている
+・getitemでindex番目の画像をロードしたい
-・ここには書いてないがdata/train data/testと手作業で70:30くらいの比率に分けている
+・ただ本当にロードできてる？
-・使い方がわからなかったので分けただけ
+・ちゃんとlabelとして認識できてる？
+全体的に
-・コメントアウトにしてcsvについて書いてはいるがcsvのデータセットの書き方がわからなくて書いていない
+正しい書き方というのがあいまいです。もう少しきれいなコードできれいにlabel分類したいです。
-・dataトlabelがどう紐づけられるのか全然イメージがつかない...
@@ -98,17 +84,17 @@
 from torchvision import transforms
-from torchvision import dataets, transforms
+from torchvision import datasets, transforms
 import numpy as np
+import os
 import glob
-import cv2
@@ -122,43 +108,103 @@
 # 前処理
+class MyTransform():
+    def __init__(self, resize, mean, std):
+        self.resize = resize
+        self.mean = mean
+        self.std = std
+    def __call__(self,img, key ='train'):
+        data_transform = {
-transform = transforms.Compose(
+            'train': transforms.Compose(
-    [transforms.Resize((256,256),
+                [transforms.Resize((256,256)),
-     transforms.ToTensor(),
+                transforms.ToTensor(),
-     transforms.RandomResizedCrop(32, scale=(1.0, 1.0), ratio=(1.0, 1.0))])
+                transforms.Normalize(self.mean, self.std) #標準化
+             ]),
+            'val': transforms.Compose(
+                [transforms.Resize((256,256)),
-# rootの中に猫の画像が100マイ入っている
+                transforms.ToTensor(),
-data = torchvision.datasets.ImageFolder(root='../data/data_resize', transform=transform)
+                transforms.Normalize(self.mean, self.std)
+                ])
+        }
+        return data_transform[key](img)
+# データセット作成
-class Creat_Datasets(Dataset):
+class MyDatasets(data.Dataset):
-    def __init__(self, imgpath='./data', csvpath='./csv', transform=transform):
+    def __init__(self, path=None, key='train', transform=None):
         self.transform = transform
+        self.key = key
-        # 以下のコードは使えるかどうか不明
+        self.path = path
+        self.data = []
+        self.lables = []
-        # self.imgfiles = sorted(glob('%s/*.png' % imgpath))
+        target_path = os.path.join(self.path + self.key + '/**/*.jpg')
+        for i in glob(target_path):
+            # データリスト作成
+            self.data.append(i)
+            #ラベルリスト作成
-        # self.csvfiles = sorted(glob('%s/*.csv' % csvpath))
+            label = os.path.basename(os.path.dirname(i))
+            if label == "cat":
-        pass
+                label = 0
+            elif label == "dog":
+                label = 1
+            self.lables.append(label)
@@ -166,30 +212,72 @@
     def __len__(self):
-        # return len(self.csvfiles)
+        return len(self.data)
-        pass
-    #  dataとlabelのタプルを返してほしい
+    #  dataとlabelを返すはず
     def __getitem__(self, index):
+        # index番目の画像をロード
+        img_path = self.data[index]
+        img = Image.open(img)
+        img_transformed = self.transform(img, self.key)
-        pass
+        label = self.labels[index]
-        return image, label
+        return img_transformed, label
+train_dataset = MyDatasets()
+print(train_dataset.label)
 ```
+### error
+こちらのコードを実行した結果です。画像の読み込みに失敗しているきがしますがどのように書き換えればいいのかわかりません。
+```ここに言語を入力
+Traceback (most recent call last):
+  File "dataset.py", line 90, in <module>
+    train_dataset = MyDatasets()
+  File "dataset.py", line 59, in __init__
+    target_path = os.path.join(self.path + self.key + '/**/*.jpg')
+TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'
+```
 ### 参考にしたサイト
@@ -200,12 +288,6 @@
-[上記のチュートリアルの解説にあたる記事だが自作でのlabelの紐づけ方がないので不明](https://qiita.com/kuto/items/0ff3ccb4e089d213871d#%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF%E3%81%AE%E8%A8%93%E7%B7%B4)
-[似たようなことをしていたがlabelの紐づけが乗っていなかった](https://qiita.com/ryryry/items/b1da4855504dcd3f9d98#%E3%83%87%E3%83%BC%E3%82%BF%E3%83%AD%E3%83%BC%E3%83%80)
 ### 最後に
 初心者故、ごちゃごちゃな質問をしてしまったのは否めないです。ただ理解があいまいなためうまく質問もできない状況です。
@@ -214,13 +296,13 @@
 以下が聞きたいことのまとめかと思いますが補足情報などありましたらお願いします。
-・labelの作り方
+・画像の読み込み方
-dataset独自の書き方なのか？、どこに配置したらいいのか？どのように取り込んだらいいのか？
+おそらく画像の読み込みに失敗していると思いますので別の方法があれば教えていただきたいです。
-・dataとlabelの紐づけ方
+・init,getitemの書き方が正しいのか確認してほしいです。
 前処理としてこんな内容でいいのかわかりませんが、initの中身、getitemでどんなコードを書いたら紐づけができるのか想像ができません。