### 機械学習の画像分野を勉強しており、その中で画像をリサイズし、分割する部分の関数の理解が難しかったため、その処理内容について教えていただきたいです。以下コードのslice_image関数とresize_pad_image関数では、「画像を三分割にして、三つのタイルと画像全体の４つのベクトルを取得」しているみたいなのですが、この部分の処理がコード内のどこで行われているのかわからず、詰まっております。 ### 該当のソースコード ```python def slice_image(im, desired_size): ''' Resize and slice image ''' old_size = im.size ratio = float(desired_size)/min(old_size) new_size = tuple([int(x*ratio) for x in old_size]) im = im.resize(new_size, Image.ANTIALIAS) ar = np.array(im) images = [] if ar.shape[0] < ar.shape[1]: middle = ar.shape[1] // 2 half = desired_size // 2 images.append(Image.fromarray(ar[:, :desired_size])) images.append(Image.fromarray(ar[:, middle-half:middle+half])) images.append(Image.fromarray(ar[:, ar.shape[1]-desired_size:ar.shape[1]])) else: middle = ar.shape[0] // 2 half = desired_size // 2 images.append(Image.fromarray(ar[:desired_size, :])) images.append(Image.fromarray(ar[middle-half:middle+half, :])) images.append(Image.fromarray(ar[ar.shape[0]-desired_size:ar.shape[0], :])) return images def resize_pad_image(im, desired_size): ''' Resize and pad image to a desired size ''' old_size = im.size ratio = float(desired_size)/max(old_size) new_size = tuple([int(x*ratio) for x in old_size]) im = im.resize(new_size, Image.ANTIALIAS) # create a new image and paste the resized on it new_im = Image.new("RGB", (desired_size, desired_size)) new_im.paste(im, ((desired_size-new_size[0])//2, (desired_size-new_size[1])//2)) return new_im ``` ### 試したこと「//2」の部分で画像を分割しているように見えたのですが、なぜ三分割なのに２で割っているのか理解できなかった。 ### 補足情報（FW/ツールのバージョンなど）この記事からコードを抜粋しました。 https://towardsdatascience.com/how-to-get-high-score-using-mmbt-and-clip-in-hateful-memes-competition-90bfa65cb117

```Text すでにar.shape[0], ar.shape[1]に2分割されている。それらの一方をさらに2分割すると、合計で3分割になる。 ```

機械学習で、画像の処理の部分のコードがわからない

機械学習の画像分野を勉強しており、その中で画像をリサイズし、分割する部分の関数の理解が難しかったため、その処理内容について教えていただきたいです。

以下コードのslice_image関数とresize_pad_image関数では、「画像を三分割にして、三つのタイルと画像全体の４つのベクトルを取得」しているみたいなのですが、この部分の処理がコード内のどこで行われているのかわからず、詰まっております。

該当のソースコード

python
1def slice_image(im, desired_size):
2    '''
3    Resize and slice image
4    '''
5    old_size = im.size
6    ratio = float(desired_size)/min(old_size)
7    new_size = tuple([int(x*ratio) for x in old_size])
8    im = im.resize(new_size, Image.ANTIALIAS)    
9    ar = np.array(im)
10    images = []
11    if ar.shape[0] < ar.shape[1]:
12        middle = ar.shape[1] // 2
13        half = desired_size // 2
14        
15        images.append(Image.fromarray(ar[:, :desired_size]))
16        images.append(Image.fromarray(ar[:, middle-half:middle+half]))
17        images.append(Image.fromarray(ar[:, ar.shape[1]-desired_size:ar.shape[1]]))
18    else:
19        middle = ar.shape[0] // 2
20        half = desired_size // 2
21        
22        images.append(Image.fromarray(ar[:desired_size, :]))
23        images.append(Image.fromarray(ar[middle-half:middle+half, :]))
24        images.append(Image.fromarray(ar[ar.shape[0]-desired_size:ar.shape[0], :]))
25
26    return images
27  
28 def resize_pad_image(im, desired_size):
29    '''
30    Resize and pad image to a desired size
31    '''
32    old_size = im.size
33    ratio = float(desired_size)/max(old_size)
34    new_size = tuple([int(x*ratio) for x in old_size])
35    im = im.resize(new_size, Image.ANTIALIAS)
36
37    # create a new image and paste the resized on it
38    new_im = Image.new("RGB", (desired_size, desired_size))
39    new_im.paste(im, ((desired_size-new_size[0])//2,
40                        (desired_size-new_size[1])//2))
41
42    return new_im

試したこと

「//2」の部分で画像を分割しているように見えたのですが、なぜ三分割なのに２で割っているのか理解できなかった。

補足情報（FW/ツールのバージョンなど）

この記事からコードを抜粋しました。
https://towardsdatascience.com/how-to-get-high-score-using-mmbt-and-clip-in-hateful-memes-competition-90bfa65cb117

行動規範の内容に同意します

回答2件

Text
1すでにar.shape[0], ar.shape[1]に2分割されている。
2それらの一方をさらに2分割すると、合計で3分割になる。

投稿2022/11/13 09:15

KEMONO.PANTSU

総合スコア481

sasuraibito

2022/11/13 14:27

ご回答ありがとうございます。.shape[]というので既に2分割されていたということですすね。大変わかりやすい回答、ありがとうございました。

KEMONO.PANTSU

2022/11/13 14:30

👍

sasuraibito

2022/11/13 14:46

すみません。一点不明な点があるのですが、伺っても良いでしょうか？個人的に調べたのですが、.shape[0]というのは一般に画像の行を表し、.shape[1]というのは列を表していると書いてありました。例えば、.shape[0]の行を二分割し、.shape[1]の列を変えなかった場合は、一つの画像が2分割されたことになるのではないでしょうか… ”ar.shape[0], ar.shape[1]で既に2分割されている"と回答者様がおっしゃることは、画像その物がこの二つに分割されているという解釈になるのでしょうか？本当に勉強不足で申し訳ないのですが、もしよければ教えて欲しいです。

KEMONO.PANTSU

2022/11/13 14:58

私も勉強不足で、その質問には答えられない T_T

sasuraibito

2022/11/13 15:31

了解です。この辺りは事故解決を試みますm(_ _)m

行動規範の内容に同意します

ベストアンサー

slice_image()の切り抜き部分を概説すると

Python
1if ar.shape[0] < ar.shape[1]: # 横長画像であれば
2    middle = ar.shape[1] // 2 # 横のサイズの半分を取得
3    half = desired_size // 2　# 欲しい画像サイズの半分を取得
4    
5    images.append(Image.fromarray(ar[:, :desired_size])) # 欲しい画像サイズで横に左からdesired_size分を切り抜き
6    images.append(Image.fromarray(ar[:, middle-half:middle+half])) # 画像横方向に中心middleから-half，中心middleからhalfにかけて切り抜き．middleを中心としてサイズはdesired_sizeになる．
7    images.append(Image.fromarray(ar[:, ar.shape[1]-desired_size:ar.shape[1]])) # 欲しい画像サイズで横に下からdesired_size分を切り抜き

になります．同様にelse句のあとは縦長画像に対する処理を行います．

この関数で画像を切り抜こうとすると，重複部分があることを許容して長方形画像を3枚の正方形画像に切り分けることになりますね．

長辺がdesired_sizeの2倍なら，半分ずつ被った画像が生成されることになりますし，3倍以上なら重複なしで画像が生成されることになります．下の画像では前者で例示してみました．

resize_pad_image()は上下左右Zero Paddingするだけの処理になってますね．

投稿2022/11/13 16:07

編集2022/11/13 16:49

ps_aux_grep

総合スコア1581

sasuraibito

2022/11/14 01:17

素晴らしく分かりやすいご回答誠にありがとうございます。添付された画像の通り、長方形をまずに分割し、その中点から右方向左方向にhalf分だけずらし、その3つの中点における正方形を作成していたという事なのですね… 一点疑問に思ったのですが、仮にこのmidleとhalfの「//2」の部分を2で割らなかった場合は、感覚的にどのような処理が行われることになるのでしょうか？実はこの部分を変更する事で、ベースラインよりいい精度が得られるのではないかと思っていたところでした… しかし、ご回答いただいた事をもとに考察すると、この//2をしてそこを中心として画像を正方形に三分割するので、ここで//2で割らなかったり他の数で割ってしまったら何の意味もないのではないかと思いました… 実際に//2をしないで実行したところ、精度は下がってしまいました。どのような処理になるのか上手く想像出来なかったので、もし良ければですが教えていただけないでしょうかm(_ _)m

ps_aux_grep

2022/11/14 06:22

> ここで//2で割らなかったり他の数で割ってしまったら何の意味もないが正しいですね，ちなみに，長方形画像を正方形で切り抜くついでにデータを増やす，という話で言うと，処理は上の手法に限りません．たとえば短辺がdesired_sizeより解像度が高い場合は短辺方向に切り抜く範囲を数pixelずつシフトさせて画像を得ることもできますし，もちろん長辺方向に切り抜き範囲を数pixelシフトさせて切り抜くこともできます．言い換えてしまえば，今回はかなり大雑把に3つの画像を得る，ということが成されただけです．たとえ解像度がdesired_sizeより小さくとも無理矢理高解像度化していることも，精度悪化に繋がったのではないでしょうか．もし精度向上を目指しているなら，先述のように数pixelずつ縦横に切り抜き範囲をずらしながら画像を得ると良いですし，Data Augmentationの一環として上下反転や左右反転が不自然でなければ実装してもよいでしょう．高解像度化のやり具合には注意しなければならないですが

sasuraibito

2022/11/15 03:03

ご返信誠にありがとうございます。通知に気づかず、遅れてしまって本当に申し訳ないですm(_ _)m 同じことを聞いてしまって申し訳ないのですが、//2の部分を消しての実行では3つの画像を得ることがなく、元々の長方形の画像から1つのベクトルを取得している…と言う解釈で合ってましたでしょうか、、先日それで実行したのですが、やはり精度は下がっていました。データ数と精度には関係があると言うことですね。また、それ以外の手法でも精度向上を目指すことは可能なのですね！教えていただいて本当にありがたいです。ご指摘の手法を試したいと思います。

ps_aux_grep

2022/11/15 06:05 編集

middleとhalfの導出にあたってどちらからも // 2 を消した場合，3番目に得る画像と同じものが，2番目に得られるだけですね．一応，3つの画像を得ることはできますが，2,3番目の画像が同一なため意味のない画像分割になります．なので精度は下がるでしょうね． 3つの画像ができることに変わりはないので，「データ数と精度に関係がある」というよりは，「データのバリュエーションと精度に関係がある」という方が正しいです．データ数を増やすことに尽力するのは大変良いことですが，その増やされたデータの傾向も見ないといけないですね．その点，Data Augmentationは苦し紛れのデータ数増加手法であると考えても良いでしょう．画像を上下反転，左右反転などされても，統計的に見て画像が持つ傾向は変化してないわけですからね．

sasuraibito

2022/11/15 11:29

ご返信ありがとうございます。何もが手探り状態で機械学習を始めたので、本当に一つ一つ勉強になりありがたいです。なるほど。自分でもう一度コードを見直したのですが、desired_sizeというのは正方形であり、その半分であるhalfの分だけ長辺の中線であるmiddleからズラして正方形を得るというものでした。つまり、//2をしなければ3つの画像が同じものなので、元の画像の各所における情報が考慮されないから精度が下がる…ということだったのですね。わかりました。この画像分割というのも一種のデータ拡張ということでしょうか。精度向上を図る上で、よくデータ拡張が挙げられると思うのですが、これは苦し紛れの手段なのですね… 機械学習分野の、特にコンピュータビジョンにおいて学習精度を向上させる良い手法ってData Augmentation以外にあるのでしょうか？もし良ければですが、教えていただきたいですm(_ _)m 蛇足になりとても申し訳ないのですが、このソースコードはマルチモーダル(画像とテキスト)データを分類するためのモデルで、画像エンコーダにはCLIPというモデル(?)が使われているみたいです。モデルそのものをイジるのはど素人には大変難しいと思っているのですが、やはり本格的な精度向上を目指すのであればモデルの中身を改変しなければならないのでしょうか…

ps_aux_grep

2022/11/15 17:41

そうですね，長方形画像から3つの正方形画像を得る．ということをしています． > この画像分割というのも一種のデータ拡張ということでしょうか。長方形画像からたった1枚の正方形画像を得るよりは，余った分も使ったほうが良いので無駄を省く努力がなされているとは思います．重複部分もあることながら一種のデータ拡張と捉えられますね．精度向上をやるとしたらデータ量を増やすか，目的に沿ったモデルに変更するしかないですね．データを増やすなら上の議論でも述べたとおり，色んな傾向をもったデータが良いでしょう． CLIPに適用する画像エンコーダは，既存モデルでもなんでも良さそうですね．基本的には画像データを次元削減することを念頭に，画像のオートエンコーダで実装しても良さそうですし，CLIPを習ってResNetかViTを使っても良さそうですね．もし過学習をするなら，CLIPに採用されたResNet-50ではなく，より小さいモデルであるResNet-18などを採用する，などの変更は容易だと考えます．逆に過学習しておらず，高精度化の望みがあるなら，ResNet-100などの大規模モデルの採用だってすぐにできそうです．

sasuraibito

2022/11/16 11:51

ご返信ありがとうございます。（なぜか通知にラグがあるようで、かなり遅くに拝見しました…）元記事には、「画像を三つのタイルに分割して、各タイルに1つのベクトルと、正方形にパディングされた画像全体に 1 つのベクトルの計４つのベクトルを取得」と書いており、おっしゃる通り出来るだけ多くの情報がある方が画像の特徴を得やすいということになるのですね。現在のところは、この状態から更に二つの正方形を得るコードを加え（エラー途中なのですが泣）、正方形５つ、ベクトル６つにして、分類精度を測っている段階です。これでもし精度が上がれば、先日ご指摘いただいたように「数pixelずつ縦横に切り抜き範囲をずらしながら画像を得る」という手法を試したいと思います。なるほど、、これはデータ拡張とも言えるわけですね。不勉強すぎておっしゃる内容が今ひとつ把握できなかったので色々調べてました。 CLIPというのはモデルの種類ではなく学習法のことであり、テキストエンコーダーにはtransformer,画像エンコーダーの方にはvision transformerが使われているのですね。 CLIPの画像エンコーダーにどのモデルが使用されているのかを確認したり、エンコーダーそのものを変えるというのは可能なことなのでしょうか？上記記事のコードではHuggingface TransformersからCLIPをインポートしており、その中での画像エンコーダの指定などについては書かれてないように見えました。また、過学習を避けること、次元削減を試みることが高精度化につながるという情報をいただいたので、それを参考に取り組みます。

行動規範の内容に同意します

あなたの回答