編集履歴

回答編集履歴

修正

2020/07/26 10:15

投稿

スコア21960

answer CHANGED Viewed

@@ -79,7 +79,7 @@
 cv2.imwrite("dst.png", dst)
 ```
-![イメージ説明](395d203ebc820d3275b3e4758fa4605c.png)
+![イメージ説明](c3f4b7eb45fdbcf20ded346c469aac25.jpeg)
 照明の影響等もあるので、多少背景も残ってしまいます。
 きれいに2値化することは1つの課題であり、2値化方法は Adaptive Thresholding など他にも方法はあるので、いろいろな手法を検討してみてください。
@@ -90,6 +90,16 @@
 [Amazon.co.jp : グリーンバック](https://www.amazon.co.jp/%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF/s?k=%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF)
+## グラフカットを使ったアプローチ
+全自動でなく、対話式でよければ、グラフカットという方法があります。
+[GrabCutを使った対話的前景領域抽出 — OpenCV-Python Tutorials 1 documentation](http://labs.eecs.tottori-u.ac.jp/sd/Member/oyamada/OpenCV/html/py_tutorials/py_imgproc/py_grabcut/py_grabcut.html)
+↓ PowerPoint についてる背景削除のやつです。
+![イメージ説明](9d3d0d247a9e69b2d26214817e242cee.png)
 ## ディープラーニングを使った別のアプローチ
 任意背景できれいに人の部分だけ抽出したいのであれば、自分であれば、ディープラーニングのセマンティックセグメンテーションモデルを使います。

修正

2020/07/26 10:15

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -90,7 +90,7 @@
 [Amazon.co.jp : グリーンバック](https://www.amazon.co.jp/%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF/s?k=%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF)
-## 別のアプローチ
+## ディープラーニングを使った別のアプローチ
 任意背景できれいに人の部分だけ抽出したいのであれば、自分であれば、ディープラーニングのセマンティックセグメンテーションモデルを使います。
 詳細な解説はここでするには余白が足りないので、Pytorch を使ったコードの提示のみにとどめておきます。

修正

2020/07/26 10:10

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -12,4 +12,132 @@
 ↓イメージですが、このような感じで2値化したい対象が白、そうでない背景は黒の画像ができていないと、findContours() はうまくいきません。
-![イメージ説明](fbaf0c485b6de9e6a3f4a09f95aa4006.png)
+![イメージ説明](fbaf0c485b6de9e6a3f4a09f95aa4006.png)
+## 追記
+> そうなんですね。領域抽出がよいのですが、背景を除去することが可能ならそれでも良いのですができるのでしょうか。質問とずれてしまいすいません。おわかりでしたら教えていただきたいです。
+輪郭抽出のアプローチでやる場合、まず人と背景をある程度きれいに2値化することは必要です。2値化は大津の手法など使えば、もう少しきれいになります。
+背景除去の場合は以下の手順になります。
+1. グレースケール化
+2. 2値化
+3. 輪郭抽出
+4. 一番大きい輪郭が人と仮定
+5. 輪郭内部を255、それ以外を0としたマスク画像を作成
+6. 元画像にアルファチャンネルを追加
+7. マスク画像の値が0 (背景) の画素の値を255にして透過
+```python
+import cv2
+import numpy as np
+from IPython import display
+def imshow(img):
+    """ndarray 配列をインラインで Notebook 上に表示する。
+    """
+    ret, encoded = cv2.imencode(".jpg", img)
+    display.display(display.Image(encoded))
+img = cv2.imread("person.jpg")
+# グレースケールに変換する。
+img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
+# 大津の手法で2値化する。
+ret, img_binary = cv2.threshold(
+    img_gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU
+)
+imshow(img_binary)
+# 輪郭を抽出する。
+contours, hierarchy = cv2.findContours(
+    img_binary, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE
+)
+# 最大の輪郭を取り出す。
+max_contour = max(contours, key=lambda x: cv2.contourArea(x))
+# 輪郭を描画する。
+img_contour = cv2.drawContours(img.copy(), [max_contour], -1, (0, 255, 0), 2)
+imshow(img_contour)
+mask = cv2.drawContours(
+    np.zeros_like(img_binary), contours, -1, color=255, thickness=-1
+)
+# アルファチャンネル追加
+dst = cv2.cvtColor(img, cv2.COLOR_BGR2BGRA)
+# mask の値が0のピクセルは透過する。
+dst[mask == 0] = 0
+cv2.imwrite("dst.png", dst)
+```
+![イメージ説明](395d203ebc820d3275b3e4758fa4605c.png)
+照明の影響等もあるので、多少背景も残ってしまいます。
+きれいに2値化することは1つの課題であり、2値化方法は Adaptive Thresholding など他にも方法はあるので、いろいろな手法を検討してみてください。
+[画像のしきい値処理 — OpenCV-Python Tutorials 1 documentation](http://labs.eecs.tottori-u.ac.jp/sd/Member/oyamada/OpenCV/html/py_tutorials/py_imgproc/py_thresholding/py_thresholding.html)
+もし撮影環境が変更可能であるならば、グリーンバックの背景を使うなど、2値化しやすいように撮影環境を工夫してください。テレビや映画の背景合成はこの方法でやっています。
+[Amazon.co.jp : グリーンバック](https://www.amazon.co.jp/%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF/s?k=%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%90%E3%83%83%E3%82%AF)
+## 別のアプローチ
+任意背景できれいに人の部分だけ抽出したいのであれば、自分であれば、ディープラーニングのセマンティックセグメンテーションモデルを使います。
+詳細な解説はここでするには余白が足りないので、Pytorch を使ったコードの提示のみにとどめておきます。
+```python
+import cv2
+import numpy as np
+import torch
+import torchvision
+from PIL import Image
+from torchvision import models as models
+from torchvision import transforms as transforms
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+PERSON_ID = 1
+# モデルを作成する。
+model = models.detection.maskrcnn_resnet50_fpn(pretrained=True).to(device)
+model.eval()
+# 画像を読み込む。
+img = Image.open("person2.jpg")
+img_tensor = transforms.functional.to_tensor(img).to(device)
+# 推論する。
+output = model([img_tensor])[0]
+# ラベル 人 のマスクを取り出す。
+person_scores = output["masks"][output["labels"] == PERSON_ID, 0]
+person_score = person_scores.max(dim=0)[0]
+mask = person_score >= 0.7
+mask = mask.cpu().detach().numpy()
+# アルファチャンネル追加
+dst = cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGRA)
+imshow(dst)
+# mask の値が0のピクセルは透過する。
+dst[mask == 0] = 0
+imshow(dst)
+```
+![イメージ説明](ebf7ea5789e2d9d82aaf3761637fca4f.jpeg)
+![イメージ説明](b24577f80f24949871a8598fb2be976b.jpeg)
+↓
+![イメージ説明](238862306ab677c0f2c469782e486fb4.jpeg)