Pytorchを用いて学習済みresnetモデルで画像の特徴量2048次元(最終層手前まで)を出力したいのですが、それらしいベクトルが得られず困っています。それらしいベクトルというのは任意の2つの画像のコサイン類似度が全て0.99になり、全て異なるベクトルではありつつも、似通ったものになっているということです。
以下は画像のパスから2048次元のnumpyの値に変換する関数なのですが、何かおかしな点はありますでしょうか。
よろしくお願いいたします。
python
1from PIL import Image 2from torch import nn, optim 3from torchvision import transforms, models 4 5 6def image2vec(image_path): 7 image_net = models.resnet50(pretrained=True) 8 image_net = list(image_net.children())[:-1] 9 image_net = nn.Sequential(*image_net) 10 11 transformer = transforms.Compose([ 12 transforms.Resize(256), 13 transforms.CenterCrop(224), 14 transforms.ToTensor(), 15 transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) 16 ]) 17 image = transformer(Image.open(image_path).convert('RGB')).unsqueeze(0) 18 image = image_net(image).detach().numpy().copy() 19 20 return image.flatten()
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。