YOLOv3におけるDataAugmentationについて

前提・実現したいこと

物体検出ライブラリを使ったカメラ解析システムを作成しています。
システムのイメージとしては、監視カメラの映像からYOLOv3によって映像内にいる人間の領域を抽出し、その後映っている人間の見た目の属性（年齢、性別、服装など）を別のモデルで推測するようなものです。

現在データの収集とモデルの学習を並行して行っているのですが、データ不足のためか推論性能が十分ではありません。そこで、学習用データに対して上下左右の反転、回転、色調変化などの処理を行うDataAugmentationの実施を検討しています。

発生している問題

YOLOv3の実装についてあらためて調べてみたところ、私が検討していた「学習用データに事前にDataAugmentataionしておく方法（Preprocess Augmentataion）」とは別に「学習時にコード内でDataAugmentationを行う方法（Realtime Augmentation）」がとられていることに気が付きました。
元のdarknetの実装の場合は以下のサイトで解説されているとおりです。

YOLO V3: Darknetのデータ拡張　https://demura.net/robot/athome/15558.html

私が参考にしているkeras実装（keras-yolo3; https://github.com/qqwweee/keras-yolo3）では"yolo3\utils.py"内のget_random_data()のコードがRealTime Augmentationを行っている部分であるように思われます。

Does it perform data augmentation by default? Is it possible to do real time data augmentation, such as rotation , zoom (1-10%) horizontal and vertical flipping. ) #509
https://github.com/qqwweee/keras-yolo3/issues/509

utils
1def get_random_data(annotation_line, input_shape, random=True, max_boxes=20, jitter=.3, hue=.1, sat=1.5, val=1.5, proc_img=True):
2    '''random preprocessing for real-time data augmentation'''
3    line = annotation_line.split()
4    image = Image.open(line[0])
5    iw, ih = image.size
6    h, w = input_shape
7    box = np.array([np.array(list(map(int,box.split(',')))) for box in line[1:]])
8
9    if not random:
10        # resize image
11        scale = min(w/iw, h/ih)
12        nw = int(iw*scale)
13        nh = int(ih*scale)
14        dx = (w-nw)//2
15        dy = (h-nh)//2
16        image_data=0
17        if proc_img:
18            image = image.resize((nw,nh), Image.BICUBIC)
19            new_image = Image.new('RGB', (w,h), (128,128,128))
20            new_image.paste(image, (dx, dy))
21            image_data = np.array(new_image)/255.
22
23        # correct boxes
24        box_data = np.zeros((max_boxes,5))
25        if len(box)>0:
26            np.random.shuffle(box)
27            if len(box)>max_boxes: box = box[:max_boxes]
28            box[:, [0,2]] = box[:, [0,2]]*scale + dx
29            box[:, [1,3]] = box[:, [1,3]]*scale + dy
30            box_data[:len(box)] = box
31
32        return image_data, box_data
33
34    # resize image
35    new_ar = w/h * rand(1-jitter,1+jitter)/rand(1-jitter,1+jitter)
36    scale = rand(.25, 2)
37    if new_ar < 1:
38        nh = int(scale*h)
39        nw = int(nh*new_ar)
40    else:
41        nw = int(scale*w)
42        nh = int(nw/new_ar)
43    image = image.resize((nw,nh), Image.BICUBIC)
44
45    # place image
46    dx = int(rand(0, w-nw))
47    dy = int(rand(0, h-nh))
48    new_image = Image.new('RGB', (w,h), (128,128,128))
49    new_image.paste(image, (dx, dy))
50    image = new_image
51
52    # flip image or not
53    flip = rand()<.5
54    if flip: image = image.transpose(Image.FLIP_LEFT_RIGHT)
55
56    # distort image
57    hue = rand(-hue, hue)
58    sat = rand(1, sat) if rand()<.5 else 1/rand(1, sat)
59    val = rand(1, val) if rand()<.5 else 1/rand(1, val)
60    x = rgb_to_hsv(np.array(image)/255.)
61    x[..., 0] += hue
62    x[..., 0][x[..., 0]>1] -= 1
63    x[..., 0][x[..., 0]<0] += 1
64    x[..., 1] *= sat
65    x[..., 2] *= val
66    x[x>1] = 1
67    x[x<0] = 0
68    image_data = hsv_to_rgb(x) # numpy array, 0 to 1
69
70    # correct boxes
71    box_data = np.zeros((max_boxes,5))
72    if len(box)>0:
73        np.random.shuffle(box)
74        box[:, [0,2]] = box[:, [0,2]]*nw/iw + dx
75        box[:, [1,3]] = box[:, [1,3]]*nh/ih + dy
76        if flip: box[:, [0,2]] = w - box[:, [2,0]]
77        box[:, 0:2][box[:, 0:2]<0] = 0
78        box[:, 2][box[:, 2]>w] = w
79        box[:, 3][box[:, 3]>h] = h
80        box_w = box[:, 2] - box[:, 0]
81        box_h = box[:, 3] - box[:, 1]
82        box = box[np.logical_and(box_w>1, box_h>1)] # discard invalid box
83        if len(box)>max_boxes: box = box[:max_boxes]
84        box_data[:len(box)] = box
85
86    return image_data, box_data

一方で、"yolov3.cfg"にもdarknet実装と類似したパラメータとしてsaturation, exposure, hue, jitter, randomが残されています。

質問内容

自分でもコードを追いながら考えてみたのですが、確信がもてなかったため以下の点について教えていただけないでしょうか。

質問1.
kears実装においてRealtime Augmentationで行われている具体的な処理はget_random_data()に含まれる以下の内容で合っているでしょうか。
・resize image（画像サイズの変更）
・place image（画像位置の変更）
・flip image or not（左右の反転）
・distort image（色相、彩度、明度の変更）

質問2.
Realtime Augmentationとして行われている処理が質問1の内容のとき、それ以外の処理（上下の反転、回転）を自分でPreprocess Augmentationとして行ったデータを学習に加えることは意味があるでしょうか。
本当はRealtime Augmentationのコードに直接追加すればいいのですが、自信がないため別途の処理にしようと考えています。

以上となります。
よろしくお願いいたします。

shocora

2020/12/15 09:20

質問への追記です。keras実装のRealtime Augmentationでは、元の学習画像に対してそれぞれの処理分1枚ずつ水増しが行われているという認識であっているのでしょうか。また、画像の反転の処理を止めたいのですが、その場合、flip imageに関するコードを削除すればよいのでしょうか。

haru135

2020/12/16 05:01

勉強中の立場なので合っているか分かりませんが、一応書きます。どなたか詳しい方が追記してくださるといいのですが……。 > keras実装のRealtime Augmentationでは、元の学習画像に対してそれぞれの処理分1枚ずつ水増しが行われているという認識であっているのでしょうか。 get_random_data()とdata_generator()のコードを読む限り、訓練データ1枚ごとにRealtime augmentationが行われているように私には見えます。ただし、元の画像と水増し画像の両方が訓練データとして保存されているかはコードからは分かりませんでした。両方とも保存しないと訓練データの総数が増えないですが、data_generator()を読むと水増し画像しか保存されていないような……？ > 画像の反転の処理を止めたいのですが、その場合、flip imageに関するコードを削除すればよいのでしょうか。実際に試してはいませんが、flip image部分のコードは他の処理には干渉していないと思うので、utils.pyのL88-89を削除するだけでいい気がします。 flip = rand()<.5 if flip: image = image.transpose(Image.FLIP_LEFT_RIGHT) コードを丸ごと消すのに抵抗があれば、flip = rand()<.5 の閾値を変えることでflipが生じないようにしてもいいと思います。

shocora

2020/12/16 09:44

回答ありがとうございます。 Realtime augmentationでの処理として、例えば1枚の元画像が入力されたとき、resize_image,place_image,flip_image,distort_imageでflip_imageとdistort_imageをしきい値を変更して無効化したら、水増しした画像4枚が出力され、その内2枚は元画像と同じものが残るということなのでしょうか。 flip image部分のコードは削除すると、utils.pyのL114の以下のコードに影響してしまって動作しなかったので、flip = rand()<.0に変更して動かすことにしました。 L114: if flip: box[:, [0,2]] = w - box[:, [2,0]]

haru135

2020/12/17 09:38

直接の回答にはなっていないかもしれませんが、改めてコードを追って考えたことを共有します。私自身初心者なので合っているとは限りませんので、参考程度に読んでくださると幸いです。なお、新規のトピックのほうが気づかれやすいので、shocoraさんが気になるところだけ取り出して新しくトピックを立てたほうが詳しい方が気づいてくれるかもしれません。力不足で申し訳ないです……。 >Realtime augmentationでの処理として、例えば1枚の元画像が入力されたとき、resize_image,place_image,flip_image,distort_imageでflip_imageとdistort_imageをしきい値を変更して無効化したら、水増しした画像4枚が出力され、その内2枚は元画像と同じものが残るということなのでしょうか。 get_random_data()では入力画像1枚（image）に乱数に応じてresize、place、flip、distortの4つの処理を連続的に施し、最終的に処理済みの画像1枚（image_data）と処理済みのアノテーション座標1つ（box_data）を生成しています。この処理はランダムな画像を生成するためのものであって、画像の枚数は増えていません。途中の4つの処理のいずれかを無効化しても出てくる画像は1枚であり、生じる画像のバリエーションが減るだけです。 keras-yolo3のモデル学習はfit_generator()を使っているので、ジェネレータによりバッチ毎に生成されたデータでモデルを訓練します（https://keras.io/ja/models/model/）。自信はないのですが、たぶん以下のような手順かと推測します。 1) ジェネレーターであるdata_generator()が訓練データから指定のバッチサイズのデータを取り出し、get_random_data()によってランダムに処理されたデータ群（n=バッチサイズ）を生成する。 2) fit_generator()がこの処理済みのデータ群を受け取り学習を行う。 3) バッチ単位で1)と2)を繰り返していき、最終的に訓練データすべてからランダム処理されたデータ群が生成されてモデル学習に用いられる。 4) 1)-3)をエポック数だけ繰り返し、損失関数が収束したら終了。したがって、1)-3)では1枚の画像から1枚の画像しか生み出されておらずデータ量は増えませんが、4)でエポック数だけ繰り返しが生じることで水増しが達成されているのかなと思っています。 > flip image部分のコードは削除すると、utils.pyのL114の以下のコードに影響してしまって動作しなかったので、flip = rand()<.0に変更して動かすことにしました。 L114: if flip: box[:, [0,2]] = w - box[:, [2,0]] すみません、私の確認不足でした。画像のAugmentationに応じてアノテーションの座標も動かす必要があるのでL114以下のコードに干渉してましたね。

shocora

2020/12/18 13:28

ご丁寧に回答ありがとうございます。 get_random_data()の最後のreturnで複数画像を返してるとは思えなかったので、処理の流れを理解できてスッキリしました。ありがとうございます。また自分でもコードを見直し、理解を深めようと思います。