質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.90%

Pythonを用いて自前のデータセットを反映させたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 195

maguro2020

score 21

前提・実現したいこと

「弱異常検知」と他の異常検知、違いはなにか?
GitHub WeaklyAnomalyDetection(※詳細のコードはこちらに掲載されています)
上記サイト様を参考に、Pythonを用いて自前のデータセットで異常検知を行いたいと思い、そのために、自前のデータセットをロードできるようにしたいと考えております。

発生している問題・エラーメッセージ

自分のデータセットの作成方法が良くなかったせいか、エラーメッセージは以下のようになっております。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-15-cdc9ed56e962> in <module>
     17 
     18 #trainデータからランダムに100個抽出
---> 19 number = np.random.choice(np.arange(0,x_train_sum.shape[0]),100,replace=False)
     20 
     21 x, y = [], []

mtrand.pyx in numpy.random.mtrand.RandomState.choice()

ValueError: 'a' cannot be empty unless no samples are taken


ただ、上記のエラーの詳細については「試していること」でも述べさせていただきますが、過去にも質問をさせていただいており(※1)、確実ではありませんがエラーの原因については自分なりに把握をしているつもりです。
しかし、何故、異常検知のコードの方で以下のようにデータを呼び出しているにもかかわらず、x_train、y_train、x_test、y_testの全ての出力結果がprint()で確かめたところ、[](空白)となってしまうのかがわからず頭を抱えている状況です。
異常検知のコードの一部

from b_c_dataset import BCN_Dataset

bell = 0#bellは0
call = 1#callは1

# dataset
(x_train, y_train), (x_test, y_test) = BCN_Dataset.create_bcn()

※1:Pythonを用いて自前のデータセットで異常検知を行いたい

コード

自前のデータセット(BCN_Dataset.py)

import matplotlib.pyplot as plt
import os
import cv2
import random
import numpy as np

os.chdir('/Users/kuromaguro/desktop/弱教師あり学習')
os.getcwd()

DATADIR_train = '/Users/kuromaguro/desktop/弱教師あり学習/b_c_dataset/png/train'
DATADIR_test = '/Users/kuromaguro/desktop/弱教師あり学習/b_c_dataset/png/test'
CATEGORIES = ["bell", "call","noise"] #bellが0、callが1、noiseが2
train_data = []
test_data = []

def create_bcn():
    random.shuffle(train_data)  # データをシャッフル
    x_train = []  # 画像データ
    y_train = []  # ラベル情
    for class_num, category in enumerate(CATEGORIES):
        path = os.path.join(DATADIR_train, category)
        for image_name in os.listdir(path):
            try:
                img_array = cv2.imread(os.path.join(path, image_name),)  # 画像読み込み
                img_resize_array = cv2.resize(img_array, (583, 438))  # 画像のリサイズ
                train_data.append([img_resize_array, class_num])  # 画像データ、ラベル情報を追加
            except Exception as e:
                print(e)

    for class_num, category in enumerate(CATEGORIES):
        path = os.path.join(DATADIR_test, category)
        for image_name in os.listdir(path):
            try:
                img_array = cv2.imread(os.path.join(path, image_name),)  # 画像読み込み
                img_resize_array = cv2.resize(img_array, (583, 438))  # 画像のリサイズ
                test_data.append([img_resize_array, class_num])  # 画像データ、ラベル情報を追加
            except Exception as e:
                print(e)

    random.shuffle(test_data)  # データをシャッフル
    x_test = []  # 画像データ
    y_test = []  # ラベル情報

    # データセット作成(train)
    for feature, label in train_data:
        x_train.append(feature)
        y_train.append(label)

    # データセット作成(test)
    for feature, label in test_data:
        x_test.append(feature)
        y_test.append(label)

    # numpy配列に変換
    x_train = np.array(x_train)
    y_train = np.array(y_train)

    x_test =np.array(x_test)
    y_test =np.array(y_test)

    return (x_train, y_train), (x_test, y_test)


簡単に自分が作成している(つもり)のデータセットの内容を説明いたしますと、trainフォルダとtestフォルダにbell、call、noiseフォルダにそれぞれの音のスペクトログラムの画像が収納されており、そこからデータを取得し、ラベル付を行い(bellは0、callは1、noiseは2)train_dataとtest_dataを作成し、最終的にx_train、y_train、x_test、y_testを作成する、というコードです。

下記より異常検知のコードとなります

import matplotlib.pyplot as plt
import os
import cv2
import random
import numpy as np
from keras.utils import to_categorical
from keras.preprocessing.image import ImageDataGenerator

os.chdir('/Users/kuromaguro/desktop/弱教師あり学習')
os.getcwd()

from b_c_dataset import BCN_Dataset

bell = 0#bellは0
call = 1#callは1

# dataset
(x_train, y_train), (x_test, y_test) = BCN_Dataset.create_bcn()

x_train = x_train.reshape(x_train.shape[0], 583, 438, 3)
x_test = x_test.reshape(x_test.shape[0], 583, 438, 3)

x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255

#学習データ
x_train_sum, x_train_c, x_train_b, x_test_c, x_test_b, = [], [], [], [], []
y_train_sum = []

for i in range(len(x_train)):
    if y_train[i] == bell:
        x_train_b.append(x_train[i])
    elif y_train[i] == call:
        x_train_c.append(x_train[i])
    else:
        x_train_sum.append(x_train[i])
        y_train_sum.append(y_train[i])

x_train_sum = np.array(x_train_sum)
x_train_b = np.array(x_train_b)
x_train_c = np.array(x_train_c)

#trainデータからランダムに100個抽出
number = np.random.choice(np.arange(0,x_train_sum.shape[0]),100,replace=False)

x, y = [], []

for i in number:
    x.append(x_train_sum[i])
    y.append(y_train_sum[i])

x_train_sum = np.array(x)
y_train_sum = np.array(y)


参考サイト様の異常検知のコードはまだ続きがありますが、上記でエラーが発生してしまっているため、省略をさせていただいております。

試していること

過去に私は似たような質問をさせていただいております。
Pythonの構文による出力結果の違い
回答してくださった方がおっしゃっていた、「メイン処理でdef create_bcn関数を読んでいない」(※関数名を変更しています)というお言葉から、上記のコードだとメイン関数を読んでいないため、x_train、y_train、x_test、y_testの中身が空白となり、結果、「エラーメッセージ」のところで記載したエラーが発生してしまっているのではないか、と考えております。そこで、現在、自前のデータセットの最後に、create_bcn関数を呼ぶために「create_bcn()」と記述をしたりしているのですが、上手くいっていない状況です。素人の質問で大変恐縮ではありますが、何かご助言でもいただけたらと思います。

補足

使っているPCはmacOS Catalina バージョン10.15.5
Pythonのバージョンは3.6.5です
Jupiter notebookを使用しています

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

直接の回答ではなくアドバイスです。

            try:
                (略)
            except Exception as e:
                pass


とすると、エラーが発生しても気づかずに動作してしまいます。
passではなくprint(e)して、まずはどんなエラーが出ているか確認しましょう。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/07/17 14:43

    ご回答いただきありがとうございます。can110様。
    自前のデータセットのcreate_bcn関数の中身をpassからprint(e)に変更し、定義し直しました。この後に、create_bcn関数を呼びだせば、出力結果でどんなエラーが発生しているかを確認できる、という認識でよろしいでしょうか?(質問した際の自前のデータセットのコードにも反映をさせました。)

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.90%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る