Haarlike特徴量と背景差分を用いてリアルタイム映像から人物像を切りぬく

前提・実現したいこと

現在、ZOOMのようにWebカメラから人物だけ切り抜いて表示させる
プログラムを作ろうとしています。
環境としては
Windows10
python3.8.1
opencvを使っています。

Haarlike特徴と背景差分を組合せて、
人の体だけ表示させるものを作りたいのですが、具体的な手法が分かりません。

今のところ、書いたプログラムがいかのよう
import cv2
import numpy as np
import matplotlib.pyplot as plt

HAAR_FILE = "haarcascade_upperbody.xml"
#HaarLike 特徴抽出アルゴリズムから分類気を作成
cascade = cv2.CascadeClassifier(HAAR_FILE)

#カメラの映像を読み込み
cap = cv2.VideoCapture(0)
ret, frame = cap.read()
h,w,ch = frame.shape
frame_back = np.zeros((h,w,ch), dtype= np.float32)
while True:
ret, frame = cap.read()

#背景差分の取得
frame_diff = cv2.absdiff(frame.astype(np.float32), frame_back)
cv2.accumulateWeighted(frame, frame_back, 0.8)
cv2.imshow("img",frame_diff.astype(np.uint8))

#sが押されたら写真を保存して終了
if cv2.waitKey(1) & 0xFF == ord('s'):
    
    #cv2.imwrite("test.jpg",frame)
    break

cap.release()
cv2.destroyAllWindows()

fana

2021/08/30 07:30

素朴な疑問なのですが > 今のところ、書いたプログラムとは一体何ですか？質問文を読むと「具体的な方法論が無い状態にある」と読めるのですが，もしそうであれば，方法論無しに書かれたコード（および，それを第三者に向けて示すこと）にどのような意味があるのでしょうか？いやいや実際はそんなことはなくて「こうやってこうすればいける」という考えの元に書かれているコードなのだ，ということであれば，現在考えているアルゴリズムを説明すべきでしょうし，コードの現状に関しても，例えば「相応に惜しいところまでは来ている」とか「こうすればいけると考えているが，ここの処理結果がイマイチだ」とか説明が必要ではないでしょうか？

fana

2021/08/30 08:34

あと，求める処理のレベルを定めた方が良いのではないかな，と思います．（とりあえず最初はこんなのでいい，とかそういう）本当に Zoom とかのバーチャル背景(っていうの?)みたいなのを目指すとなると，おそらく「セマンテックセグメンテーション」とかいう方向の話になるのではないかな，と．

行動規範の内容に同意します

回答1件

ベストアンサー

現在、ZOOMのようにWebカメラから人物だけ切り抜いて表示させるプログラムを作ろうとしています。(略)

Haarlike特徴と背景差分を組合せて、人の体だけ表示させるものを作りたいのですが、具体的な手法が分かりません。

既に察しているかと思いますが、

Haar-likeはロバスト性の高い方法ですが、四角の箱しか教えてくれません。
cv2.absdiffは頑健な方法ですが、背景に対して許容差（？）がかなり小さく融通が利きません。使い方の説明はこちらのQiitaの例が参考になると思います。

今一番精度が高い方法で恐らくZoomもやっているのはfanaさんのコメントにあるセマンティックセグメンテーションです。

質問としては書かれてはいませんが、恐らく頭の中に3つ目の選択肢として

深層学習（セマンティックセグメンテーション）はハードルが高いから避けたい。

があったことと思います。

で、実際深層学習ってどうよ？

深層学習はガチでやると大学の講義をみっちり受けて高等数学の勉強をしないといけませんが、そんな時代は終わりました。とりあえず使うだけであれば30分もあれば使えるような風にまとまっていますし、世界で戦える水準の精度の分類器（ネットワーク構造とその設定データ=重み）がすぐ使える形で無料で公開されています。誰もができたらなぁだとかチュートリアルにはいいなぁ、というものはおおむね公開されています。「人間の検出」ようなものは代表例です。

Deep Learningで背景削除をしてみるが参考になりませんか？深層学習の処理は基本的にCPUで裁くには重いため、解像度を落とすか精度を落とすかして処理を軽くしてやる必要があります。

もしNVIDIA製GeForceでCUDA対応のものをお持ちであれば計算が30～100倍くらいは早くなるはずです。

Goodluck :)

投稿2021/08/30 22:14

編集2021/08/30 22:15

退会済みユーザー

総合スコア0

fana

2021/08/31 00:57

質問文にはまるで何も書かれていませんが，メインは背景差分（←もうちょっとまともに頑張るとして）で，Haar-likeは絞り込み（差分で出てきた領域が人か否かのチェックみたいな）に使うようなことを想定しているのかな？　とか勝手に思っていました．（ただ，想定されているようなシーンでは人もほぼほぼ同じ場所に居続けるでしょうから，ある程度「背景だけ」のシーンが最初に短時間でも存在しないと出発点が背景差分ってのは厳しいのではないかという気がしますが．） --- > ガチでやる的な話なのか否かは，結局のところ，この取り組みの目的次第ですね．（単に動くものが欲しいだけなのか，何らかの勉強目的なのか）

saiki1127

2021/08/31 01:21

回答ありがとうございます。自分としては動くものが欲しかったので上記のhaarlikeや背景差分とかにこだわりはなかったのですが、自然と深層学習からは目を背けてました。（←難しそう）ベストアンサーには選びませんでしたがありがとうございます。

退会済みユーザー

2021/08/31 21:27

fanaさん > （単に動くものが欲しいだけなのか，何らかの勉強目的なのか）私もそう思います。もし無料の既製品で満足いくのであれば勉強なしでも十分戦えますし、一方でどこにもデータがないものであれば手探りでやるしかないと思います。 saki1127さん > 自分としては動くものが欲しかったサンプルの写真をアップロードできますか？すぐにはできないかもしれませんが、時間があるときに希望する方法でこちらでも動作確認をします。

行動規範の内容に同意します