質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

OpenCV

OpenCV(オープンソースコンピュータービジョン)は、1999年にインテルが開発・公開したオープンソースのコンピュータビジョン向けのクロスプラットフォームライブラリです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1297閲覧

自作した学習モデルをyoloを用いてカメラの映像で画像認識を行いたい

huton

総合スコア30

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

OpenCV

OpenCV(オープンソースコンピュータービジョン)は、1999年にインテルが開発・公開したオープンソースのコンピュータビジョン向けのクロスプラットフォームライブラリです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/07/11 12:55

質問内容

画像認識を行うCNNを自作したのですがこれを用いてカメラの映像をつかった画像認識を行いたいと考えています。
そのために調べたサイト(リンク内容)にあったdarknetのサンプルコードを参考にさせていただこうと思ったのですが、どこをどのように変更すれば自作のCNNを利用できるのかわかりませんでした。
もし知っている方がいらっしゃったら教えていただけないでしょうか?
それともこのサンプルソースコードを利用する方法ではできないのでしょうか?
自作のCNN

python

1import keras 2import pickle 3import pandas as pd 4import numpy as np 5import seaborn as sns 6from keras import models 7from keras import layers 8from keras import optimizers 9from pandas import Series,DataFrame 10from keras.utils import to_categorical 11from keras.optimizers import RMSprop 12from keras.preprocessing.image import ImageDataGenerator 13from sklearn.preprocessing import LabelBinarizer 14 15#csv読み込み 16sign_train = pd.read_csv("sign_mnist_train.csv",sep=",") 17lb=LabelBinarizer() 18 19#特訓データ 20train_data=sign_train.drop(['label'],axis=1) 21train_data = train_data.values.reshape(-1,28,28,1) 22train_data=train_data.astype('float32')/255 23train_label=sign_train['label'] 24train_label=lb.fit_transform(train_label) 25 26#モデル 27model=models.Sequential() 28model.add(layers.Conv2D(32,(3,3),activation='relu',input_shape=(28,28,1))) 29model.add(layers.MaxPooling2D((2,2))) 30model.add(layers.Conv2D(64,(3,3),activation='relu')) 31model.add(layers.MaxPooling2D((2,2))) 32model.add(layers.Conv2D(64,(3,3),activation='relu')) 33model.add(layers.Flatten()) 34model.add(layers.Dense(64,activation='relu')) 35model.add(layers.Dropout(0.1)) 36model.add(layers.Dense(64,activation='relu')) 37model.add(layers.Dropout(0.1)) 38model.add(layers.Dense(24,activation='softmax')) 39 40#学習の取り決め 41model.compile(optimizer='adam',loss='categorical_crossentropy',metrics=['acc']) 42 43#学習 44history=model.fit(train_data,train_label,epochs=20,batch_size=200) 45 46#保存 47with open('model.pickle', mode='wb') as f: 48 pickle.dump(model, f)

サイトのサンプルソースコード

python

1from __future__ import division 2import time 3import torch 4import torch.nn as nn 5from torch.autograd import Variable 6import numpy as np 7import cv2 8from util import * 9from darknet import Darknet 10from preprocess import prep_image, inp_to_image 11import pandas as pd 12import random 13import argparse 14import pickle as pkl 15 16def prep_image(img, inp_dim): 17 """ 18 Prepare image for inputting to the neural network. 19 20 Returns a Variable 21 """ 22 23 orig_im = img 24 dim = orig_im.shape[1], orig_im.shape[0] 25 img = cv2.resize(orig_im, (inp_dim, inp_dim)) 26 img_ = img[:,:,::-1].transpose((2,0,1)).copy() 27 img_ = torch.from_numpy(img_).float().div(255.0).unsqueeze(0) 28 return img_, orig_im, dim 29 30def write(x, img): 31 c1 = tuple(x[1:3].int()) 32 c2 = tuple(x[3:5].int()) 33 cls = int(x[-1]) 34 label = "{0}".format(classes[cls]) 35 color = random.choice(colors) 36 cv2.rectangle(img, c1, c2,color, 1) 37 t_size = cv2.getTextSize(label, cv2.FONT_HERSHEY_PLAIN, 1 , 1)[0] 38 c2 = c1[0] + t_size[0] + 3, c1[1] + t_size[1] + 4 39 cv2.rectangle(img, c1, c2,color, -1) 40 cv2.putText(img, label, (c1[0], c1[1] + t_size[1] + 4), cv2.FONT_HERSHEY_PLAIN, 1, [225,255,255], 1); 41 return img 42 43def arg_parse(): 44 """ 45 Parse arguements to the detect module 46 47 """ 48 49 50 parser = argparse.ArgumentParser(description='YOLO v3 Cam Demo') 51 parser.add_argument("--confidence", dest = "confidence", help = "Object Confidence to filter predictions", default = 0.25) 52 parser.add_argument("--nms_thresh", dest = "nms_thresh", help = "NMS Threshhold", default = 0.4) 53 parser.add_argument("--reso", dest = 'reso', help = 54 "Input resolution of the network. Increase to increase accuracy. Decrease to increase speed", 55 default = "160", type = str) 56 return parser.parse_args() 57 58 59 60if __name__ == '__main__': 61 cfgfile = "cfg/yolov3.cfg" 62 weightsfile = "yolov3.weights" 63 num_classes = 80 64 65 args = arg_parse() 66 confidence = float(args.confidence) 67 nms_thesh = float(args.nms_thresh) 68 start = 0 69 CUDA = torch.cuda.is_available() 70 71 72 73 74 num_classes = 80 75 bbox_attrs = 5 + num_classes 76 77 model = Darknet(cfgfile) 78 model.load_weights(weightsfile) 79 80 model.net_info["height"] = args.reso 81 inp_dim = int(model.net_info["height"]) 82 83 assert inp_dim % 32 == 0 84 assert inp_dim > 32 85 86 if CUDA: 87 model.cuda() 88 89 model.eval() 90 91 videofile = 'video.avi' 92 93 cap = cv2.VideoCapture(0) 94 95 assert cap.isOpened(), 'Cannot capture source' 96 97 frames = 0 98 start = time.time() 99 while cap.isOpened(): 100 101 ret, frame = cap.read() 102 if ret: 103 104 img, orig_im, dim = prep_image(frame, inp_dim) 105 106# im_dim = torch.FloatTensor(dim).repeat(1,2) 107 108 109 if CUDA: 110 im_dim = im_dim.cuda() 111 img = img.cuda() 112 113 114 output = model(Variable(img), CUDA) 115 output = write_results(output, confidence, num_classes, nms = True, nms_conf = nms_thesh) 116 117 if type(output) == int: 118 frames += 1 119 print("FPS of the video is {:5.2f}".format( frames / (time.time() - start))) 120 cv2.imshow("frame", orig_im) 121 key = cv2.waitKey(1) 122 if key & 0xFF == ord('q'): 123 break 124 continue 125 126 127 128 output[:,1:5] = torch.clamp(output[:,1:5], 0.0, float(inp_dim))/inp_dim 129 130# im_dim = im_dim.repeat(output.size(0), 1) 131 output[:,[1,3]] *= frame.shape[1] 132 output[:,[2,4]] *= frame.shape[0] 133 134 135 classes = load_classes('data/coco.names') 136 colors = pkl.load(open("pallete", "rb")) 137 138 list(map(lambda x: write(x, orig_im), output)) 139 140 141 cv2.imshow("frame", orig_im) 142 key = cv2.waitKey(1) 143 if key & 0xFF == ord('q'): 144 break 145 frames += 1 146 print("FPS of the video is {:5.2f}".format( frames / (time.time() - start))) 147 148 149 else: 150 break

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tiitoi

2020/07/11 13:36 編集

YOLOv3 はそれで1つの CNN モデルなので、自作のデータセットで物体検出をしたい場合は YOLOv3 のモデルを自作のデータセットで学習するということになるかと思います。 つまり、クラス分類用の学習済みモデルを持ってきて、物体検出をするということはできないです。
huton

2020/07/11 14:37

教えていただきありがとうございます。よくわかっていなかったのでとても助かりました。 素直にyolov3に使ったデータセットを学習させたり、他のアプローチを探ってみたいと思います。
guest

回答1

0

自己解決

返信してくださった方の言う通り、根本的に違っていたみたいです。

投稿2020/07/11 14:39

huton

総合スコア30

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問