物体検出から座標を取り出し, その座標に画像を出力

前提・実現したいこと

私が開発しているプログラムは、iPhone向けのコーディネートアプリです。
詳しい動作としましては、iPhoneのカメラを起動し, 上半身, 下半身, 靴の３つのラベルを学習させた物体検出モデルでリアルタイムで体の各部位を検出させます. 検出された座標に, 上半身, 下半身, 靴(Upper body, Lower body, Leg)に合わせて服や靴の画像を出力させるといったアプリを目指しています. 服や靴の画像はXcodeのAssets.xcassets内に予め入れておくものとします.

発生している問題・エラーメッセージ

問題は, 検出された座標を取得して服の画像が表示することが出来ないという点で躓いています.
1つ目のソースコードの下部, **米印(＊)**の部分で服の画像を出力させようとしています.
動作としては, 上半身の認識が確認できた時にボタンを押し, Upper bodyの座標に服の画像を出力する。
また, 2つ目のソースコードでは基本的に物体検出させる詳細が書かれています.
カメラセッションなどは省力します。
以下のサンプルに手を加えて, 画像を出力出来るように考えています.
【https://developer.apple.com/documentation/vision/recognizing_objects_in_live_capture】

該当のソースコード

Swift
1import UIKit
2import AVFoundation
3import Vision
4
5class ViewController: UIViewController, AVCaptureVideoDataOutputSampleBufferDelegate {
6    
7    var bufferSize: CGSize = .zero
8    var rootLayer: CALayer! = nil
9    
10    @IBOutlet weak private var previewView: UIView!
11    private let session = AVCaptureSession() //カメラセッションのインスタンス作成
12    private var previewLayer: AVCaptureVideoPreviewLayer! = nil
13    private let videoDataOutput = AVCaptureVideoDataOutput()
14    
15    private let videoDataOutputQueue = DispatchQueue(label: "VideoDataOutput", qos: .userInitiated, attributes: [], autoreleaseFrequency: .workItem)
16    
17    func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) {
18    }
19    
20    override func viewDidLoad() {
21        super.viewDidLoad()
22        setupAVCapture()
23        //imageset()
24    }
25...
26
27**********************
28　　@IBOutlet weak var UIImageView: UIImageView!
29　　@IBAction func tapBtn(_ sender: Any) {
30        func imageset(_ bounds: CGRect, identifier: String) -> UIImageView {
31            let textLayer = CATextLayer()
32            let images = UIKit.UIImageView()
33            images.bounds = bounds
34            if textLayer.name == "Upper body"{
35            images.image = UIImage(named: "Upper body")
36            images.frame = CGRect(x: bounds.midX, y: bounds.midY, width: 　　　　bounds.size.height, height: bounds.size.width)
37            images.center = CGPoint(x: bounds.midX, y: bounds.minY)
38            self.view.addSubview(images)
39            }else{
40                print("error")
41            }
42            return images
43        }
44    }
45***********************

Swift
1import UIKit
2import AVFoundation
3import Vision
4
5class VisionObjectRecognitionViewController: ViewController {
6    
7    private var detectionOverlay: CALayer! = nil
8    
9    // Visionパーツ
10    private var requests = [VNRequest]()
11    
12    @discardableResult
13    func setupVision() -> NSError? {
14        // Visionパーツのセットアップ
15        let error: NSError! = nil
16        
17        // MLモデルの指定, Visionモデルの指定
18        guard let modelURL = Bundle.main.url(forResource: "MyObjectDetector7", withExtension: "mlmodelc") else {
19            return NSError(domain: "VisionObjectRecognitionViewController", code: -1, userInfo: [NSLocalizedDescriptionKey: "Modelファイルがありません."])
20        }
21        do {
22            let visionModel = try VNCoreMLModel(for: MLModel(contentsOf: modelURL))
23            let objectRecognition = VNCoreMLRequest(model: visionModel, completionHandler: { (request, error) in
24                DispatchQueue.main.async(execute: {
25                    // メインキューで全てのUI更新を実行
26                    if let results = request.results {
27                        self.drawVisionRequestResults(results)
28                    }
29                })
30            })
31            self.requests = [objectRecognition]
32        } catch let error as NSError {
33            print("Modelが読み込めませんでした. (error)")
34        }
35        
36        return error
37    }
38    
39    func drawVisionRequestResults(_ results: [Any]) {
40        CATransaction.begin()
41        CATransaction.setValue(kCFBooleanTrue, forKey: kCATransactionDisableActions)
42        detectionOverlay.sublayers = nil // 古い認識したオブジェクトの値を削除
43        for observation in results where observation is VNRecognizedObjectObservation {
44            guard let objectObservation = observation as? VNRecognizedObjectObservation else {
45                continue
46            }
47            // 最も信頼性の高いラベルのみを選択
48            let topLabelObservation = objectObservation.labels[0] //最も信頼度の高い値を選ぶ
49            let objectBounds = VNImageRectForNormalizedRect(objectObservation.boundingBox, Int(bufferSize.width), Int(bufferSize.height))
50            
51            let shapeLayer = self.createRoundedRectLayerWithBounds(objectBounds)
52            
53            let textLayer = self.createTextSubLayerInBounds(objectBounds,
54                                                            identifier: topLabelObservation.identifier,
55                                                            confidence: topLabelObservation.confidence)
56            shapeLayer.addSublayer(textLayer)
57            detectionOverlay.addSublayer(shapeLayer)
58        }
59        self.updateLayerGeometry()
60        CATransaction.commit()
61    }
62    
63    override func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) {
64        guard let pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else {
65            return
66        }
67        
68        let exifOrientation = exifOrientationFromDeviceOrientation()
69        
70        let imageRequestHandler = VNImageRequestHandler(cvPixelBuffer: pixelBuffer, orientation: exifOrientation, options: [:])
71        do {
72            try imageRequestHandler.perform(self.requests)
73        } catch {
74            print(error)
75        }
76    }
77    
78    override func setupAVCapture() {
79        super.setupAVCapture()
80        
81        // セットアップVisionパーツ
82        setupLayers()
83        updateLayerGeometry()
84        setupVision()
85        
86        // キャプチャセッションをスタート
87        startCaptureSession()
88    }
89    
90    func setupLayers() {
91        detectionOverlay = CALayer() // 観測された全てのコンテナレイヤー(レンダリングを含む)
92        detectionOverlay.name = "DetectionOverlay"
93        detectionOverlay.bounds = CGRect(x: 0.0,
94                                         y: 0.0,
95                                         width: bufferSize.width,
96                                         height: bufferSize.height)
97        detectionOverlay.position = CGPoint(x: rootLayer.bounds.midX, y: rootLayer.bounds.midY)
98        rootLayer.addSublayer(detectionOverlay)
99    }
100    
101    func updateLayerGeometry() {
102        let bounds = rootLayer.bounds
103        var scale: CGFloat
104        
105        let xScale: CGFloat = bounds.size.width / bufferSize.height
106        let yScale: CGFloat = bounds.size.height / bufferSize.width
107        
108        scale = fmax(xScale, yScale)
109        if scale.isInfinite {
110            scale = 1.0
111        }
112        CATransaction.begin()
113        CATransaction.setValue(kCFBooleanTrue, forKey: kCATransactionDisableActions)
114        
115        //レイヤーを画面の向きにし, スケールとミラーリング
116        detectionOverlay.setAffineTransform(CGAffineTransform(rotationAngle: CGFloat(.pi / 2.0)).scaledBy(x: scale, y: -scale))
117        //レーヤーを中央に配置
118        detectionOverlay.position = CGPoint(x: bounds.midX, y: bounds.midY)
119        
120        CATransaction.commit()
121        
122    }
123    
124    func createTextSubLayerInBounds(_ bounds: CGRect, identifier: String, confidence: VNConfidence) -> CATextLayer {
125        let textLayer = CATextLayer()
126        textLayer.name = "Object Label"
127        let formattedString = NSMutableAttributedString(string: String(format: "(identifier)\nConfidence:  %.2f", confidence))
128        let largeFont = UIFont(name: "Helvetica", size: 24.0)!
129        formattedString.addAttributes([NSAttributedString.Key.font: largeFont], range: NSRange(location: 0, length: identifier.count))
130        textLayer.string = formattedString
131        textLayer.bounds = CGRect(x: 0, y: 0, width: bounds.size.height - 10, height: bounds.size.width - 10)
132        textLayer.position = CGPoint(x: bounds.midX, y: bounds.midY)
133        textLayer.shadowOpacity = 0.7
134        textLayer.shadowOffset = CGSize(width: 2, height: 2)
135        textLayer.foregroundColor = CGColor(colorSpace: CGColorSpaceCreateDeviceRGB(), components: [0.0, 0.0, 0.0, 1.0])
136        textLayer.contentsScale = 2.0 // retina rendering
137        //レイヤーを画面の向きに回転させ, 拡大縮小してミラーリングする
138        textLayer.setAffineTransform(CGAffineTransform(rotationAngle: CGFloat(.pi / 2.0)).scaledBy(x: 1.0, y: -1.0))
139        return textLayer
140    }
141    
142    //認識した座標に矩形を表示
143    func createRoundedRectLayerWithBounds(_ bounds: CGRect) -> CALayer {
144        let shapeLayer = CALayer()
145        shapeLayer.bounds = bounds
146        shapeLayer.position = CGPoint(x: bounds.midX, y: bounds.midY)
147        shapeLayer.name = "Found Object"
148        shapeLayer.backgroundColor = CGColor(colorSpace: CGColorSpaceCreateDeviceRGB(), components: [1.0, 1.0, 1.0, 0.4])
149        shapeLayer.cornerRadius = 7
150        return shapeLayer
151    }
152}
153