Pythonのリストの近似値２要素のみ取り出したい

Open CVのeye_cascadeを使用した目の認識を行なっているのですが、誤検知を減らす上で、表題のような課題に突き当たりました。

実際に書いたコード

下記コードのように、写真を読み込ませて顔認識した範囲で目認識をしようとします

pyton
1import os
2import cv2
3
4face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')#学習データ
5eye_cascade = cv2.CascadeClassifier('haarcascade_eye.xml')#学習データ
6
7img = cv2.imread('DSC_0064.JPG')
8gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
9faces = face_cascade.detectMultiScale(gray, scaleFactor = 1.1, minSize = (400,400), maxSize = (int(width*0.8),int(width*0.8)))
10face_max = faces[faces[:, 2].argmax()]
11    
12img1 = img[int(face_max[1]) : int(face_max[1]+face_max[2]), int(face_max[0]): int(face_max[0]+face_max[3])]#元画像を顔部分のみクロップ→その範囲のみ目顔認証をかける
13gray1 = cv2.cvtColor(img1, cv2.COLOR_BGR2GRAY)
14eyes = eye_cascade.detectMultiScale(gray1, scaleFactor = 1.1,minNeighbors=10, minSize = (50,50), maxSize = (350,350))
15
16print(type(eyes))
17print(eyes)#[x,y,w,h]の形で書き出される

結果

<class 'numpy.ndarray'>
[[ 99 143 112 112]
 [298 154 102 102]
 [141  37  80  80]]

ndarray形式でこのような結果が書き出され、左右２つの目を認識したいにも関わらず３箇所認識されている結果となりました。（前髪や口が誤認識されているようです。）

そこで考えたのですが、目というものは、左右２つはほぼ水平に写真に収められるものなので、各要素の2番目のy座標の値に注目し、上から143と154と37だと、37の値が他の２つに比べて逸脱しているのでこれが誤検知なのだと判断できます。

このように、y座標の値が近似な２つの要素のみ抽出する

[[ 99 143 112 112]
 [298 154 102 102]]

といった処理を行い誤検知の値を排除したいと考えているのですが、なかなかうまい方法が思いつきません。

良い方法をご存知でしたらご教授いただけたらと思い、質問させていただきました。よろしくお願いします。

Q71

2020/04/13 02:26

顔検出というデータファイルがありませんでしたか？顔として検出した中にある、とするのはどうでしょう？

TakayukiMoriya

2020/04/13 02:38

説明不足＆画像の例が悪くてすみません。実はそれは既に行なっております。この画像の例以外にも、口を誤検出したりすることが多いので、やはりy座標を根拠としたソートの方がより確実だと考えます。

quickquip

2020/04/13 04:01 編集

eyes = [[2264 1453 194 194] [2582 1589 166 166] [3388 2100 89 89]] この部分、Pythonとして正しいコードにしていただけないでしょうか? "intのリスト"のリストですか? numpy.ndarrayですか?

TakayukiMoriya

2020/04/13 04:17

ndarry形式です。リストと言っていたのはNumpyのリスト形式という意味ですね。知識不足で混同してました。

quickquip

2020/04/13 04:30 編集

Numpyだと普通は(カジュアルには)配列かarrayと呼ぶかと思います。 eyes = np.array([[2264, 1453, 194, 194], [2582, 1589, 166, 166], [3388, 2100, 89, 89]]) ですね。そう分かるように質問を編集しましょう。（ここは"質問への追記・修正の依頼"欄です）

TakayukiMoriya

2020/04/13 04:31

諸々コードが変なので、修正します。申し訳ございません

tiitoi

2020/04/13 04:49

eyes の矩形一覧を y座標が近いもの同士でグループ分けしたいということでしょうか？

t_obara

2020/04/13 04:52

顔の片側しか写っていない場合どうするのかなどあるので、外側から頑張るより、精度が良い別の手法の方が簡単だったりします（処理速度との兼ね合いはありますが）。

TakayukiMoriya

2020/04/13 05:01

tiitoiさん、そうですね。グループ分けで要件を満たすと思います！

TakayukiMoriya

2020/04/13 05:03

t_obaraさん仮に１つしか目を認識できなかったら、それはうまく撮れていない写真と判定し、処理をスルーしてしまう予定でした。精度が高い別の手法って何ですか？？？

t_obara

2020/04/13 06:47

mtcnnとかdlibとか。詳しくはググってみると良いです。

行動規範の内容に同意します

回答1件

ベストアンサー

そうですね。グループ分けで要件を満たすと思います！

y の値に基づいてグループ分けを行うコードを下記に貼ります。
y の値が小さい順に矩形をソートしておいて、1行前の y の値と今の行の y の値との差が50 px 以上ある場合はそこで区切るようにしました。

python
1import numpy as np
2
3a = np.array([[99, 143, 112, 112],
4              [298, 154, 102, 102],
5              [141, 37, 80, 80]])
6
7sorted_a = a[np.argsort(a[:, 1])]
8
9
10groups = []
11tmp = []
12y = sorted_a[0, 1]
13
14for row in sorted_a:
15    if row[1] - y >= 50:  # 差が50px以上なら区切る
16        groups.append(tmp)
17        tmp = []
18        y = row[1]
19    tmp.append(row)
20groups.append(tmp)
21
22print(groups)

numpy の関数を使って上記処理を書くと以下のようにすることもできます。

python
1split_pos = np.nonzero(np.diff(sorted_a[:, 1]) >= 50)[0] + 1  # 分割する行
2groups = np.split(sorted_a, split_pos)  # 行方向に分割  
3print(groups)

y の値が近いもの同士でグループ分けするやり方について回答しましたが、目の位置の誤検出をへらすというのが最終目的であるとすると、このやり方だと不十分な気がします。
例えば、顔が斜めであれば、2つの目の y の値が違って来ますし、目の位置と y の値が同じ場所に誤検出が発生した場合は区別できません。

本質的な解決策はカスケード検出器ではなく、より精度のよいアルゴリズムを検討したほうがよいでしょう。

例えば、dlib の顔認識機能を Python から簡単に使えるようにした Face Recognition というライブラリがあります。

Python - 顔認識ライブラリ Face Recognition で顔検出を行う方法

投稿2020/04/13 08:09

編集2020/04/13 08:10

tiitoi

総合スコア21956

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonのリストの近似値２要素のみ取り出したい

実際に書いたコード

結果

関連した質問