編集履歴

質問編集履歴

追記

2021/01/18 13:20

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -193,4 +193,60 @@
 とすることで、ちゃんとtest用のtransformをするようになり、最初に書いていた1枚ずつ推論するコードとまったく同じ結果になりました
 seedを固定しないと結果が同じにならなかったのは、train用のtransformのRandom~等の影響だと思います
 また、test時には不要なtransformの処理もなくなり、少し早くなって1秒当たり3.9フレームほど処理できるようになり、2時間20分で推論できるようになりましたが、まだ1時間を切れていないので、さらに高速化できればまた追記します
-A_kirisakiさん、様々な助言を下さり、本当にありがとうございました。
+A_kirisakiさん、様々な助言を下さり、本当にありがとうございました。
+・1/18
+画像の読み込み等をデータローダーで並列化し、1秒で6.5フレームほど処理でき、1時間20分で終わるようになりました
+```Python
+キャッシュを使用してフレーム画像を取得するクラスを追加
+class Frame:
+    def __init__(self, cap):
+        self.cap = cap
+    @lru_cache(maxsize=1) # キャッシュ
+    def __call__(self, frame_num):
+        # self.cap.set(cv2.CAP_PROP_POS_FRAMES, frame_num)
+        ret, frame = self.cap.read()
+        pil_frame = cv2pil(frame)
+        return pil_frame
+Frameクラスに合わせて__getitem__を変更
+class Dataset(data.Dataset):
+    def __init__(self, x, y, cap, num_frame, transform=None, phase="test"):
+        self.x = x
+        self.y = y
+        self.num_frame = num_frame
+        self.transform = transform
+        self.phase = phase
+        self.get_frame = Frame(cap)
+    def __len__(self):
+        return len(self.x) * len(self.y) *  self.num_frame
+    def __getitem__(self, index):
+        frame_num = index // (len(self.x) * len(self.y)) # index // 8 * 8
+        i = (index - (frame_num * len(self.x) * len(self.y))) // len(self.x)
+        j = (index - (frame_num * len(self.x) * len(self.y))) % len(self.y)
+        self.frame = self.get_frame(frame_num)
+        cropped_img = self.frame.crop((int(self.x[i]), int(self.y[j]), int(self.x[i])+256, int(self.y[j])+256))
+        cropped_img = self.frame.crop((int(self.x[j]), int(self.y[i]), int(self.x[j])+256, int(self.y[i])+256))
+        cropped_img = self.transform(cropped_img, self.phase)
+        return cropped_img
+Frameクラスのおかげで、1フレームずつ読み込んでそのたびにデータローダーを宣言する必要が無くなったので、推論部分を変更
+    train_dataset = Dataset(x, y, cap, num_frame, transform=Transform(resize, mean, std), phase="test")
+    train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=64, num_workers=1, pin_memory=True) # num_workersは2にすると変なメッセージが出る上に、1と速度が大差ないので1
+    model.eval()
+    print("-------------")
+    print("推論開始")
+    #推論
+    with torch.no_grad():
+        for i, inputs in enumerate(tqdm(train_dataloader)):
+            if use_cuda:
+                inputs = inputs.cuda()
+            outputs = model(inputs)
+            prob_array[i] = softmax(outputs)[:, 1].to('cpu').detach().numpy().copy().reshape(len(x), len(y))
+```
+目標の50分まではまだ届いていませんが思いつくことは大体やったので、解決にしようと思います。
+ありがとうございました。

追記

2021/01/18 13:20

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -192,4 +192,5 @@
 ```
 とすることで、ちゃんとtest用のtransformをするようになり、最初に書いていた1枚ずつ推論するコードとまったく同じ結果になりました
 seedを固定しないと結果が同じにならなかったのは、train用のtransformのRandom~等の影響だと思います
-また、test時には不要なtransformの処理もなくなり、少し早くなって1秒当たり3.9フレームほど処理できるようになり、2時間20分で推論できるようになりましたが、まだ1時間を切れていないので、さらに高速化できればまた追記します
+また、test時には不要なtransformの処理もなくなり、少し早くなって1秒当たり3.9フレームほど処理できるようになり、2時間20分で推論できるようになりましたが、まだ1時間を切れていないので、さらに高速化できればまた追記します
+A_kirisakiさん、様々な助言を下さり、本当にありがとうございました。

追記

2021/01/16 18:45

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -153,4 +153,43 @@
 ```
 ・1/8
 torch.manual_seed(1)とrandom.seed(1)を行うと推論結果が実行毎に同じになるようになりましたが、以前のように1枚ずつ推論していたときとは少し異なる結果となっています
-1枚ずつ推論する方では、実行結果が毎回同じになっています
+1枚ずつ推論する方では、実行結果が毎回同じになっています
+・1/17
+解決しました!!
+私の初歩的なミスでした。申し訳ありません。
+データ拡張のTransformを
+```Python
+class Transform():
+    def __init__(self, resize, mean, std):
+        self.data_transform = {
+            "train": transforms.Compose([
+                #Histogram_Equalization(),
+                Luminance_Histogram_Equalization(),
+                transforms.RandomRotation((-20,20)),
+                transforms.RandomVerticalFlip(),
+                transforms.RandomHorizontalFlip(),
+                transforms.Resize(resize),
+                transforms.ToTensor(),
+                transforms.Normalize(mean, std)
+            ]),
+            "test": transforms.Compose([
+                #Histogram_Equalization(),
+                # Luminance_Histogram_Equalization(),
+                transforms.Resize(resize),
+                transforms.ToTensor(),
+                transforms.Normalize(mean, std)
+            ])
+        }
+    def __call__(self, img, phase="train"):
+        return self.data_transform[phase](img)
+```
+というふうに、Transformのtrainとtestを辞書型にしていて、デフォルトでtrainの方を呼び出すようにしていたのが原因でした。
+datasetのgetitemを変更し
+```Python
+✖ cropped_img = self.transform(cropped_img)
+〇 cropped_img = self.transform(cropped_img, self.phase)
+```
+とすることで、ちゃんとtest用のtransformをするようになり、最初に書いていた1枚ずつ推論するコードとまったく同じ結果になりました
+seedを固定しないと結果が同じにならなかったのは、train用のtransformのRandom~等の影響だと思います
+また、test時には不要なtransformの処理もなくなり、少し早くなって1秒当たり3.9フレームほど処理できるようになり、2時間20分で推論できるようになりましたが、まだ1時間を切れていないので、さらに高速化できればまた追記します

追記

2021/01/16 18:43

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -150,4 +150,7 @@
                     inputs = inputs.cuda()
                 outputs = model(inputs)
                 prob_array[i] = softmax(outputs)[:, 1].to('cpu').detach().numpy().copy().reshape(len(x), len(y)) #8×8にreshape
-```
+```
+・1/8
+torch.manual_seed(1)とrandom.seed(1)を行うと推論結果が実行毎に同じになるようになりましたが、以前のように1枚ずつ推論していたときとは少し異なる結果となっています
+1枚ずつ推論する方では、実行結果が毎回同じになっています

追記

2021/01/08 09:17

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -109,14 +109,45 @@
 #追記
 ・1/4
 cap.read()すると勝手に次のフレームに行くみたいなので、余計なcap.setをコメントアウトしたところ、実行時間が約1.3倍になり、7時間ほどで処理できるようになりました。
+30000フレームちょっとの動画の
+read()に7分
+cv2pilに8分
+cropとtransformに30分
+output = model(cropped_img_tensor)に約6時間
+かかるようです。
 ```Python
     for i in tqdm(range(num_frame), position=0):
         #cap.set(cv2.CAP_PROP_POS_FRAMES, i+1)
         ret, frame = cap.read()
 ```
-30000フレームちょっとの動画の
+・1/5
+dataloaderを使用し、64枚一気に推論するように変更したところ、1秒で2.6フレームほど処理可能で、3時間ちょっとで処理できるようになりました。
+しかし、以前の実装では大丈夫だったのですが、なぜか実行毎に推論結果が同じにならず、原因を調査中です。
+```Python
-read()に7分
+getitemを変更
+    def __getitem__(self, index):
+        i = index // len(self.x)
+        j = index % len(self.y)
+        cropped_img = self.frame.crop((int(self.x[j]), int(self.y[i]), int(self.x[j])+256, int(self.y[i])+256))
+        cropped_img = self.transform(cropped_img)
+        return cropped_img
+推論部分を変更
+    for i in tqdm(range(num_frame), position=0):
+        ret, frame = cap.read()
-cv2pilに8分
+        if not ret:
+            break
+        else:
+            pil_frame = cv2pil(frame)
+        train_dataset = Dataset(x, y, pil_frame, transform=Transform(resize, mean, std), phase="test")
+        train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=64, num_workers=2, pin_memory=True)
-cropとtransformに30分
+        with torch.no_grad():
+            for inputs in train_dataloader:
+                if use_cuda:
+                    inputs = inputs.cuda()
-output = model(cropped_img_tensor)に約6時間
+                outputs = model(inputs)
+                prob_array[i] = softmax(outputs)[:, 1].to('cpu').detach().numpy().copy().reshape(len(x), len(y)) #8×8にreshape
-かかるようです。
+```

追記

2021/01/05 06:20

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -106,7 +106,7 @@
-追記
+#追記
 ・1/4
 cap.read()すると勝手に次のフレームに行くみたいなので、余計なcap.setをコメントアウトしたところ、実行時間が約1.3倍になり、7時間ほどで処理できるようになりました。
 ```Python
@@ -114,4 +114,9 @@
         #cap.set(cv2.CAP_PROP_POS_FRAMES, i+1)
         ret, frame = cap.read()
 ```
+30000フレームちょっとの動画の
+read()に7分
+cv2pilに8分
+cropとtransformに30分
-約3万フレームの動画のread()に7分、cv2pilに8分かかるようです。
+output = model(cropped_img_tensor)に約6時間
+かかるようです。

修正

2021/01/04 14:59

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,6 +6,7 @@
 ⑤出力した確率を、配列の対応する場所に格納
 ⑥③へ
 という単純な実装で、処理時間が1フレームあたり約1秒かかり、とても遅いです。
+処理したい動画は30000フレームちょっとあり、10時間ほどかかります。
 0.1秒ほどで処理するのが理想で、高速化のためいくつか思いついたことを試したのですが上手くいきません。
 高速化する良い方法がありましたら教えていただきたいです
 ```Python
@@ -107,9 +108,10 @@
 追記
 ・1/4
-cap.read()すると勝手に次のフレームに行くみたいなので、余計なcap.setをコメントアウトしたところ、実行時間が約1.3倍になりました
+cap.read()すると勝手に次のフレームに行くみたいなので、余計なcap.setをコメントアウトしたところ、実行時間が約1.3倍になり、7時間ほどで処理できるようになりました。
 ```Python
     for i in tqdm(range(num_frame), position=0):
         #cap.set(cv2.CAP_PROP_POS_FRAMES, i+1)
         ret, frame = cap.read()
-```
+```
+約3万フレームの動画のread()に7分、cv2pilに8分かかるようです。

追記

2021/01/04 14:52

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -101,4 +101,15 @@
 これはVGG16で実行したときの時間です
 32762はフレーム数です
-一番時間がかかるのは推論だと思うのですが、なぜかモデルをMobileNet_v2にしてもほとんど実行時間は変わりませんでした
+一番時間がかかるのは推論だと思うのですが、なぜかモデルをMobileNet_v2にしてもほとんど実行時間は変わりませんでした
+追記
+・1/4
+cap.read()すると勝手に次のフレームに行くみたいなので、余計なcap.setをコメントアウトしたところ、実行時間が約1.3倍になりました
+```Python
+    for i in tqdm(range(num_frame), position=0):
+        #cap.set(cv2.CAP_PROP_POS_FRAMES, i+1)
+        ret, frame = cap.read()
+```

誤字

2021/01/04 14:33

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -60,31 +60,40 @@
        print(c-b)
        print(d-c)
 ```
-  0%|                                                                        | 0/32762 [00:00<?, ?it/s]0.05161237716674805
+  0%|                                                                        | 0/32762 [00:00<?, ?it/s]
+0.05161237716674805
 0.017586469650268555
 2.1721038818359375
-  0%|                                                             | 1/32762 [00:02<20:23:48,  2.24s/it]0.044759511947631836
+  0%|                                                             | 1/32762 [00:02<20:23:48,  2.24s/it]
+0.044759511947631836
 0.016994237899780273
 0.6606061458587646
-  0%|                                                             | 2/32762 [00:02<16:14:59,  1.79s/it]0.056168556213378906
+  0%|                                                             | 2/32762 [00:02<16:14:59,  1.79s/it]
+0.056168556213378906
 0.016913175582885742
 0.6579580307006836
-  0%|                                                             | 3/32762 [00:03<13:22:14,  1.47s/it]0.06777358055114746
+  0%|                                                             | 3/32762 [00:03<13:22:14,  1.47s/it]
+0.06777358055114746
 0.01434183120727539
 0.6527915000915527
-  0%|                                                             | 4/32762 [00:04<11:21:56,  1.25s/it]0.07939982414245605
+  0%|                                                             | 4/32762 [00:04<11:21:56,  1.25s/it]
+0.07939982414245605
 0.014380693435668945
 0.6701173782348633
-  0%|                                                             | 5/32762 [00:05<10:02:29,  1.10s/it]0.09820103645324707
+  0%|                                                             | 5/32762 [00:05<10:02:29,  1.10s/it]
+0.09820103645324707
 0.014620542526245117
 0.6635544300079346
-  0%|                                                              | 6/32762 [00:05<9:08:54,  1.01s/it]0.10292172431945801
+  0%|                                                              | 6/32762 [00:05<9:08:54,  1.01s/it]
+0.10292172431945801
 0.015182971954345703
 0.6512439250946045
-  0%|                                                              | 7/32762 [00:06<8:30:15,  1.07it/s]0.11549758911132812
+  0%|                                                              | 7/32762 [00:06<8:30:15,  1.07it/s]
+0.11549758911132812
 0.01836109161376953
 0.649014949798584
-  0%|                                                              | 8/32762 [00:07<8:05:24,  1.12it/s]0.13360857963562012
+  0%|                                                              | 8/32762 [00:07<8:05:24,  1.12it/s]
+0.13360857963562012
 0.016347885131835938
 0.6655523777008057
 ・

計測結果の修正

2020/12/30 15:15

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -60,25 +60,33 @@
        print(c-b)
        print(d-c)
 ```
-  0%|                                                 | 0/32762 [00:00<?, ?it/s]
+  0%|                                                                        | 0/32762 [00:00<?, ?it/s]0.05161237716674805
-0.0496668815612793
-0.017401933670043945
+0.017586469650268555
-2.247164726257324
+2.1721038818359375
-  0%|                                      | 1/32762 [00:02<21:03:37,  2.31s/it]
+  0%|                                                             | 1/32762 [00:02<20:23:48,  2.24s/it]0.044759511947631836
-0.05923867225646973
+0.016994237899780273
-0.016553640365600586
+0.6606061458587646
-0.6884787082672119
-  0%|                                      | 2/32762 [00:03<16:49:43,  1.85s/it]
+  0%|                                                             | 2/32762 [00:02<16:14:59,  1.79s/it]0.056168556213378906
+0.016913175582885742
-0.05535531044006348
+0.6579580307006836
-0.014247894287109375
-0.708582878112793
-  0%|                                      | 3/32762 [00:03<13:54:16,  1.53s/it]
+  0%|                                                             | 3/32762 [00:03<13:22:14,  1.47s/it]0.06777358055114746
-0.06719350814819336
+0.01434183120727539
-0.01429295539855957
+0.6527915000915527
-0.6995298862457275
-  0%|                                      | 4/32762 [00:04<11:51:55,  1.30s/it]
+  0%|                                                             | 4/32762 [00:04<11:21:56,  1.25s/it]0.07939982414245605
+0.014380693435668945
+0.6701173782348633
+  0%|                                                             | 5/32762 [00:05<10:02:29,  1.10s/it]0.09820103645324707
+0.014620542526245117
+0.6635544300079346
+  0%|                                                              | 6/32762 [00:05<9:08:54,  1.01s/it]0.10292172431945801
+0.015182971954345703
-0.07828927040100098
+0.6512439250946045
+  0%|                                                              | 7/32762 [00:06<8:30:15,  1.07it/s]0.11549758911132812
+0.01836109161376953
+0.649014949798584
+  0%|                                                              | 8/32762 [00:07<8:05:24,  1.12it/s]0.13360857963562012
-0.015504837036132812
+0.016347885131835938
+0.6655523777008057
 ・
 ・

誤字

2020/12/30 15:08

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -52,8 +52,8 @@
                    cropped_img_tensor = transform(cropped_img, phase="test").unsqueeze(0) #transformしたあと、推論するためバッチの次元を追加
                    output = model(cropped_img_tensor)
-                   bag_prob = softmax(output)[0][1].item() #softmaxを計算
+                   prob = softmax(output)[0][1].item() #softmaxを計算
-                   prob_array[i][k][j] = bag_prob
+                   prob_array[i][k][j] = prob
        d = time.time() ##############################
        print(b-a)

32762がフレーム数であることを追記

2020/12/30 15:06

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -83,4 +83,5 @@
 ・
 これはVGG16で実行したときの時間です
+32762はフレーム数です
 一番時間がかかるのは推論だと思うのですが、なぜかモデルをMobileNet_v2にしてもほとんど実行時間は変わりませんでした

実行時間計測結果の追加

2020/12/30 15:01

投稿

daikooooooon

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -28,4 +28,59 @@
                     output = model(cropped_img_tensor)
                     prob = softmax(output)[0][1].item() #softmaxを計算
                     prob_array[i][k][j] = prob
-```
+```
+↓実行時間計測
+```Python
+   for i in tqdm(range(num_frame), position=0):
+       a = time.time() ###############################
+       cap.set(cv2.CAP_PROP_POS_FRAMES, i+1)
+       ret, frame = cap.read()
+       b = time.time()############################
+       if not ret:
+           break
+       else:
+           pil_frame = cv2pil(frame)
+       c = time.time() #######################
+       with torch.no_grad():
+           for j in range(len(x)):
+               for k in range(len(y)):
+                   cropped_img = pil_frame.crop((int(x[j]), int(y[k]), int(x[j])+256, int(y[k])+256))
+                   cropped_img_tensor = transform(cropped_img, phase="test").unsqueeze(0) #transformしたあと、推論するためバッチの次元を追加
+                   output = model(cropped_img_tensor)
+                   bag_prob = softmax(output)[0][1].item() #softmaxを計算
+                   prob_array[i][k][j] = bag_prob
+       d = time.time() ##############################
+       print(b-a)
+       print(c-b)
+       print(d-c)
+```
+  0%|                                                 | 0/32762 [00:00<?, ?it/s]
+0.0496668815612793
+0.017401933670043945
+2.247164726257324
+  0%|                                      | 1/32762 [00:02<21:03:37,  2.31s/it]
+0.05923867225646973
+0.016553640365600586
+0.6884787082672119
+  0%|                                      | 2/32762 [00:03<16:49:43,  1.85s/it]
+0.05535531044006348
+0.014247894287109375
+0.708582878112793
+  0%|                                      | 3/32762 [00:03<13:54:16,  1.53s/it]
+0.06719350814819336
+0.01429295539855957
+0.6995298862457275
+  0%|                                      | 4/32762 [00:04<11:51:55,  1.30s/it]
+0.07828927040100098
+0.015504837036132812
+・
+・
+これはVGG16で実行したときの時間です
+一番時間がかかるのは推論だと思うのですが、なぜかモデルをMobileNet_v2にしてもほとんど実行時間は変わりませんでした