CNNにおいて自作データセットの作成

CNNで自作のデータセットを作成したいのですが，，，
現状のコードが下記です。

DATADIR = "aa"
CATEGORIES = ["x2","z2"]
IMG_SIZE = 28
training_data = []
def create_training_data():
    for class_num, category in enumerate(CATEGORIES):
        path = os.path.join(DATADIR, category)
        for image_name in os.listdir(path):
            try:
                img_array = cv2.imread(os.path.join(path, image_name), cv2.IMREAD_GRAYSCALE)  # 画像読み込み
                img_resize_array = cv2.resize(img_array, (IMG_SIZE, IMG_SIZE))  # 画像のリサイズ
                training_data.append([img_resize_array, class_num])  # 画像データ、ラベル情報を追加
                
                
            
            except Exception as e:
                pass
create_training_data()
random.shuffle(training_data)  # データをシャッフル
x_train = []  # 画像データ
y_train = []  # ラベル情報
# データセット作成
for feature, label in training_data:
    x_train.append(feature)
    y_train.append(label)
# numpy配列に変換
x= np.array(x_train)
y= np.array(y_train)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

x_train, x_test = x_train / 255.0, x_test / 255.0
コード

この方法で，[x2,y2]ファイルにある画像をトレーニングデータとテストデータに分けてデータセットを作成できたのですが，
ファイルにある写真ごとでトレーニングに使うかテストに使うかを分けたいです。
イメージとしては，[x2,y2]ファイルをトレーニングデータ，[x3,y3]ファイルをテストデータにするといった形です。
どなたかご意見よろしくお願いいたします。

aokikenichi

2020/09/30 09:52

質問の意味が今一つ分からず、、、「[x2,y2]ファイルにある画像をトレーニングデータとテストデータに分けてデータセットを作成できたのですが」コードを見ると「CATEGORIES = ["x2","z2"]」とあるのでこれのことでしょうか？「[x2,y2]ファイル」とは class_num, categoryがそれぞれ"x2", "y2"であるファイルということでしょうか？「for image_name in os.listdir(path):」のループでファイルを取得しているので「[x2,y2]ファイルをトレーニングデータ，[x3,y3]ファイルをテストデータにするといった形」であればそれぞれをそのままトレーニング、テストデータとして読み込めばいいのでは？