pytorch 画像サイズとモデルのマッチ

pytorchでニューラルネットワークの学習をしたいと思っていますが、transforms.Resizeで画像のサイズを変更した後、モデルに投入するとランタイムエラーが出ます。

RuntimeError: mat1 dim 1 must match mat2 dim 0

resizeで画像サイズを28にすると動くので、画像のサイズとモデルが合っていないと思っていますが、モデルのどこと画像のサイズが関係しているのか理解できていません。

もしわかる方がいらっしゃいましたらご教示ください。

dataset = torchvision.datasets.ImageFolder(root="./tmp", transform = transforms.Compose([transforms.Resize(160), transforms.ToTensor()]))

torch.Size([8, 3, 160, 160])

# ディープラーニングモデル
import torch.nn as nn
import torch.nn.functional as F

OVER_CLUSTRING_Rate = 10  # 多めに分類するoverclsuteringも用意する


class NetIIC(nn.Module):
    def __init__(self):
        super(NetIIC, self).__init__()

        self.conv1 = nn.Conv2d(3, 128, 5, 2, bias=False)
        self.bn1 = nn.BatchNorm2d(128)
        self.conv2 = nn.Conv2d(128, 128, 5, 1, bias=False)
        self.bn2 = nn.BatchNorm2d(128)
        self.conv3 = nn.Conv2d(128, 128, 5, 1, bias=False)
        self.bn3 = nn.BatchNorm2d(128)
        self.conv4 = nn.Conv2d(128, 256, 4, 1, bias=False)
        self.bn4 = nn.BatchNorm2d(256)
        
        # 0-9に対応すると期待したい10種類のクラス
        self.fc = nn.Linear(256, 10)

        # overclustering
        # 実際の想定よりも多めにクラスタリングさせることで、ネットワークで微細な変化を捉えられるようにする
        self.fc_overclustering = nn.Linear(256, 10*OVER_CLUSTRING_Rate)

    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.relu(self.bn3(self.conv3(x)))
        x = F.relu(self.bn4(self.conv4(x)))
        x_prefinal = x.view(x.size(0), -1)
        y = F.softmax(self.fc(x_prefinal), dim=1)

        y_overclustering = F.softmax(self.fc_overclustering(
            x_prefinal), dim=1)  # overclustering

        return y, y_overclustering

行動規範の内容に同意します

回答1件

ベストアンサー

画像のサイズが影響するのは、全結合層の入力次元数です。

畳みこんだ後の画像のピクセル数×チャネル数が全結合層の入力次元数にならなければいけません。

投稿2021/02/21 21:37

Amakaze

総合スコア313

taro_yamada

2021/02/21 23:23

該当する全結合層の指定場所がどこかわからないでいます。 self.bn1 = nn.BatchNorm2d(128) この128を160×160×3にするといった処理が必要なのだと思うのですが、あまり理解できていません。すみません。

Amakaze

2021/02/22 03:14

全結合層はnn.Linear()のことです。 conv層ごとに画像が少しずつ小さくなっていきます。（kernel_size、strideなどに依存）公式のドキュメントに式は書いてあるので、それを参考に自分で計算してみてください。 https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html

taro_yamada

2021/02/22 13:31

self.fc = nn.Linear(3*160*160, 10) にしても同じエラーが出ます。

Amakaze

2021/02/22 23:34

CNNに入力する画像が160×160×3であっても、conv層を経るごとに画像サイズとチャネル数が変化します。そのため、最終的に全結合層に入る画像サイズは異なるはずです。前のコメントに載せたドキュメントにconv層でのサイズの変化の式が載っているので、自分で計算してください。

taro_yamada

2021/02/23 07:32

ドキュメントを読んでみました。ほかにも以下のHPなども参考にしてみました。 https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html 元の画像のサイズが160で conv1 160-5+1=156 conv2 156-5+1=152 conv3 152-5+1=148 conv4 148-4+1=145 self.fc = nn.Linear(256*145*145, 10) mat1 dim 1 must match mat2 dim 0 これでも同じエラーになります。理解が悪くて申し訳ないです。少しアドバイスを頂ければと思います。

taro_yamada

2021/02/23 07:41

strideを忘れていました。うまく動きました！ありがとうございました。

行動規範の内容に同意します