質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.91%

Pythonを用いて自前のデータセットで異常検知を行いたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 219

maguro2020

score 21

前提・実現したいこと

GitHub WeaklyAnomalyDetection
上記のサイト様を参考に自前のデータセットを用いて異常検知を行いたいと考えております。

発生している問題・エラーメッセージ

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-9-adac0b839533> in <module>
     17 
     18 #trainデータからランダムに50個抽出
---> 19 number = np.random.choice(np.arange(0,x_train_sum.shape[0]),50,replace=False)
     20 
     21 x, y = [], []

mtrand.pyx in numpy.random.mtrand.RandomState.choice()

ValueError: 'a' cannot be empty unless no samples are taken

コード

自前のデータセットのコード

import matplotlib.pyplot as plt
import os
import cv2
import random
import numpy as np

DATADIR_train = '/Users/username/desktop/弱教師あり学習/b_c_dataset/png/train'
DATADIR_test = '/Users/username/desktop/弱教師あり学習/b_c_dataset/png/test'
CATEGORIES = ["bell", "call"]
train_data = []
test_data = []

def load_bc_data():
    random.shuffle(train_data)  # データをシャッフル
    x_train = []  # 画像データ
    y_train = []  # ラベル情
    for class_num, category in enumerate(CATEGORIES):
        path = os.path.join(DATADIR_train, category)
        for image_name in os.listdir(path):
            try:
                img_array = cv2.imread(os.path.join(path, image_name),)  # 画像読み込み
                img_resize_array = cv2.resize(img_array, (583, 438))  # 画像のリサイズ
                training_data.append([img_resize_array, class_num])  # 画像データ、ラベル情報を追加
            except Exception as e:
                pass

    for class_num, category in enumerate(CATEGORIES):
        path = os.path.join(DATADIR_test, category)
        for image_name in os.listdir(path):
            try:
                img_array = cv2.imread(os.path.join(path, image_name),)  # 画像読み込み
                img_resize_array = cv2.resize(img_array, (583, 438))  # 画像のリサイズ
                test_data.append([img_resize_array, class_num])  # 画像データ、ラベル情報を追加
            except Exception as e:
                pass

    random.shuffle(test_data)  # データをシャッフル
    x_test = []  # 画像データ
    y_test = []  # ラベル情報

    # データセット作成(train)
    for feature, label in train_data:
        x_train.append(feature)
        y_train.append(label)

    # データセット作成(test)
    for feature, label in test_data:
        x_test.append(feature)
        y_test.append(label)

    # numpy配列に変換
    x_train = np.array(x_train)
    y_train = np.array(y_train)

    x_test =np.array(x_test)
    y_test =np.array(y_test)

    return (x_train, y_train), (x_test, y_test)


異常検知のコード

import matplotlib.pyplot as plt
import os
import cv2
import random
from b_c_dataset import B_C_Dataset2

import numpy as np
from keras.utils import to_categorical
from keras.preprocessing.image import ImageDataGenerator

bell = 0#bellは0
call = 1#callは1

# dataset
(x_train, y_train), (x_test, y_test) = B_C_Dataset2.load_bc_data()

x_train = x_train.reshape(x_train.shape[0], 583, 438, 3)
x_test = x_test.reshape(x_test.shape[0], 583, 438, 3)

x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255


#学習データ(以下のコードからエラーが発生します)
x_train_sum, x_train_s, x_train_b, x_test_s, x_test_b, = [], [], [], [], []
y_train_sum = []

#以下を修正いたしました
for i in range(len(x_train)):
    if y_train[i] == bell:
        x_train_b.append(x_train[i]) #正解がbellの時はt_train_bに格納
    elif y_train[i] == call:
        x_train_s.append(x_train[i]) #正解がcellの時はt_train_sに格納

    #正解がbellである場合もcellである場合も
    #常にt_train_sumやy_train_sumにデータを格納
    x_train_sum.append(x_train[i])
    y_train_sum.append(y_train[i])

x_train_sum = np.array(x_train_sum)
x_train_b = np.array(x_train_b)
x_train_s = np.array(x_train_s)

#trainデータからランダムに50個抽出
number = np.random.choice(np.arange(0,x_train_sum.shape[0]),50,replace=False)

x, y = [], []

for i in number:
    x.append(x_train_sum[i])
    y.append(y_train_sum[i])

x_train_sum = np.array(x)
y_train_sum = np.array(y)


元のサイト様のコードはまだ続きがありますが、上記の場所でエラーが発生しているため省略させていただきます。

試していること

エラーメッセージである

ValueError: 'a' cannot be empty unless no samples are taken


について現在、調査を行っておりますが全く何もわかっていない状況です。しかし、異常検知のコードの途中にある

#trainデータからランダムに50個抽出
number = np.random.choice(np.arange(0,x_train_sum.shape[0]),50,replace=False)


の「trainデータからランダムに50個抽出」は元のコードでは、fashion_mnistデータセットを使用しているため、サンプル数を4000個に設定されていました。そこを私は自前のデータセットを用いたために上記のようにサンプル数を50個にしたことがこのエラーの原因ではないのか、と考えております。
また、自前のデータセットの詳細を以下に記載いたします。
B_C_Dataset2
トレーニングデータ:bell(画像)120枚、call(画像)60枚
テストデータ:bell(画像)28枚、call(画像)12枚
となっております。

補足

使っているPCはmacOS Catalina バージョン10.15.5
Pythonのバージョンは3.6.5です
jupyter notebookを使用しています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

まず、エラーの意味はnp.random.choiceの第一引数、つまり、np.arange(0,x_train_sum.shape[0])の部分がemptyなのでサンプルが抽出できませんと言っています。

np.arrangeemptyになるということはx_train_sum.shape[0]0、つまり、x_train_sumにデータが入っていないようですね。

確かにその上にあるデータを作っている部分を拝見すると、
(コメントは私が追記しました)

for i in range(len(x_train)):
    if y_train[i] == bell:
        x_train_b.append(x_train[i]) #正解がbellの時はt_train_bに格納
    elif y_train[i] == call:
        x_train_s.append(x_train[i]) #正解がcellの時はt_train_sに格納
    else:
        #それ以外の時にt_train_sumに格納というコードになっているのですが、
        #正解がbellでもcellでもないっていうデータはあるんでしたっけ?
        x_train_sum.append(x_train[i])
        y_train_sum.append(y_train[i])


となっているので、確かにx_train_sumには何も格納されないように思います。

おそらくですが、やりたかったことはこうではないでしょうか?

for i in range(len(x_train)):
    if y_train[i] == bell:
        x_train_b.append(x_train[i]) #正解がbellの時はt_train_bに格納
    elif y_train[i] == call:
        x_train_s.append(x_train[i]) #正解がcellの時はt_train_sに格納

    #正解がbellである場合もcellである場合も
    #常にt_train_sumやy_train_sumにデータを格納
    x_train_sum.append(x_train[i])
    y_train_sum.append(y_train[i])

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/07/15 09:36

    ご回答いただきありがとうございます。TetsuyaZama様。
    TetsuyaZama様にご指摘いただいた点を自分のコードに反映させたのですが、質問の時と同じエラーが発生してしまいました。やはりこの場合、自分の作成した自前のデータセットが良くないということでしょうか?自分の想像となってしまい申し訳ないのですが、自分の作成したつもりのデータセットの中身は、
    bellとcallのスペクトログラムの画像をbellは0、callは1としてラベル付を行いtrain_dataとtest_dataに分けたデータセットを作成したつもりです。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.91%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る