Chainerの学習がうまくいかない

Question

### 前提

chainerで画像分類の実験を行っています。学習させたモデルでテストを行うと0.1％しか出ないという状態です。
画像のデータセットについては特に問題ないと考えています。

### 実現したいこと
- [ ] 問題の解決

### 該当のソースコード

```python
テスト用のコード

#!/usr/bin/env python
"""Example code of learning a large scale convnet from ILSVRC2012 dataset.

Prerequisite: To run this example, crop the center of ILSVRC2012 training and
validation images and scale them to 256x256, and make two lists of space-
separated CSV whose first column is full path to image and second column is
zero-origin label (this format is same as that used by Caffe's ImageDataLayer).

"""
from __future__ import print_function
import argparse
import datetime
import json
import multiprocessing
import random
import sys
import threading
import time

import numpy as np
from PIL import Image

import six
import six.moves.cPickle as pickle
import _pickle as cPickle  #変更
from six.moves import queue

import chainer
import matplotlib.pyplot as plt
import numpy as np
import math
import chainer.functions as F
import chainer.links as L
from chainer.links import caffe
from matplotlib.ticker import * 
from chainer import serializers

from functools import cmp_to_key  #追加

parser = argparse.ArgumentParser(
    description='Image inspection using chainer')
parser.add_argument('image', help='Path to inspection image file')
parser.add_argument('--model','-m',default='model', help='Path to model file')
parser.add_argument('--mean', default='mean.npy',
                    help='Path to the mean file (computed by compute_mean.py)')
parser.add_argument('--out', '-o')
args = parser.parse_args()

def read_image(path, center=False, flip=False):
  image = np.asarray(Image.open(path)).transpose(2, 0, 1)
  if center:
    top = left = cropwidth // 2
  else:
    top = random.randint(0, cropwidth - 1)
    left = random.randint(0, cropwidth - 1)
  bottom = model.insize + top
  right = model.insize + left
  image = image[:, top:bottom, left:right].astype(np.float32)
  image -= mean_image[:, top:bottom, left:right]
  image /= 255
  if flip and random.randint(0, 1) == 0:
    return image[:, :, ::-1]
  else:
    return image

import nin

mean_image = cPickle.load(open(args.mean, 'rb'))

model = cPickle.load(open(args.model,'rb'))

#mean_image = cPickle.load(open(args.mean, 'rb'))
#model = cPickle.load(open(args.model,'rb',))

#serializers.load_hdf5("gpu1out.h5", model)
cropwidth = 256 - model.insize
model.to_cpu()

def predict(net, x):
    h = F.max_pooling_2d(F.relu(net.mlpconv1(x)), 3, stride=2)
    h = F.max_pooling_2d(F.relu(net.mlpconv2(h)), 3, stride=2)
    h = F.max_pooling_2d(F.relu(net.mlpconv3(h)), 3, stride=2)
    #h = net.mlpconv4(F.dropout(h, train=net.train))
    h = net.mlpconv4(F.dropout(h))
    h = F.reshape(F.average_pooling_2d(h, 6), (x.data.shape[0], 1000))
    return F.softmax(h)

#setattr(model, 'predict', predict)

img = read_image(args.image)
x = np.ndarray(
        (1, 3, model.insize, model.insize), dtype=np.float32)
x[0]=img
#x = chainer.Variable(np.asarray(x), volatile='on')
x= chainer.Variable(np.asarray(x))
with chainer.no_backprop_mode():

score = predict(model,x)
#score=cuda.to_cpu(score.data)

categories = np.loadtxt("labels.txt", str, delimiter="	")

top_k = 20
#↓list()を追加
prediction = list(zip(score.data[0].tolist(), categories))
#prediction.sort(cmp=lambda x, y: cmp(x[0], y[0]), reverse=True)
prediction.sort (key=lambda x: x[0],reverse=True)

for rank, (score, name) in enumerate(prediction[:top_k], start=1):
     print('#%d | %s | %4.1f%%' % (rank, name, score * 100))

今回使用した　nin.py
import math
import chainer
import chainer.functions as F
import chainer.links as L

class NIN(chainer.Chain):

"""Network-in-Network example model."""

insize = 227

def __init__(self):
        w = math.sqrt(2)  # MSRA scaling
        super(NIN, self).__init__(
            mlpconv1=L.MLPConvolution2D(
                3, (96, 96, 96), 11, stride=4),
            mlpconv2=L.MLPConvolution2D(
                96, (256, 256, 256), 5, pad=2), #wscale=w削除
            mlpconv3=L.MLPConvolution2D(
                256, (384, 384, 384), 3, pad=1),
            mlpconv4=L.MLPConvolution2D(
                384, (1024, 1024, 1000), 3, pad=2),
        )
        self.train = True

def clear(self):
        self.loss = None
        self.accuracy = None

def __call__(self, x, t):
        self.clear()
        h = F.max_pooling_2d(F.relu(self.mlpconv1(x)), 3, stride=2)
        h = F.max_pooling_2d(F.relu(self.mlpconv2(h)), 3, stride=2)
        h = F.max_pooling_2d(F.relu(self.mlpconv3(h)), 3, stride=2)
        h = self.mlpconv4(F.dropout(h)) #変更
        h = F.reshape(F.average_pooling_2d(h, 6), (x.data.shape[0], 1000))

self.loss = F.softmax_cross_entropy(h, t)
        self.accuracy = F.accuracy(h, t)
        return self.loss
    
    def predict(self, x_data, train=False):
        x = chainer.Variable(x_data, volatile=True)

h = F.relu(self.conv1(x))
        h = F.relu(self.conv1a(h))
        h = F.relu(self.conv1b(h))
        h = F.max_pooling_2d(h, 3, stride=2)
        h = F.relu(self.conv2(h))
        h = F.relu(self.conv2a(h))
        h = F.relu(self.conv2b(h))
        h = F.max_pooling_2d(h, 3, stride=2)
        h = F.relu(self.conv3(h))
        h = F.relu(self.conv3a(h))
        h = F.relu(self.conv3b(h))
        h = F.max_pooling_2d(h, 3, stride=2)
        h = F.dropout(h, train=train)
        h = F.relu(self.conv4(h))
        h = F.relu(self.conv4a(h))
        h = F.relu(self.conv4b(h))
        h = F.reshape(F.average_pooling_2d(h, 6), (x_data.shape[0], 1000))
        return F.softmax(h)

学習用のコード
def train_loop():
    # Trainer
    graph_generated = False
    while True:
        while data_q.empty():
            time.sleep(0.1)
        inp = data_q.get()
        if inp == 'end':  # quit
            res_q.put('end')
            break
        elif inp == 'train':  # restart training
            res_q.put('train')
            model.train = True
            continue
        elif inp == 'val':  # start validation
            res_q.put('val')
            #serializers.save_npz(args.out, model)
            #model.to_cpu()
            pickle.dump(model, open(args.out, 'wb'), -1)
            serializers.save_npz(args.outstate, optimizer)
            model.train = False
            continue

volatile = 'off'if model.train else 'on'
        #x = chainer.Variable(xp.asarray(inp[0]), volatile=volatile)
        x = chainer.Variable(xp.asarray(inp[0]))
        with chainer.no_backprop_mode():
        #t = chainer.Variable(xp.asarray(inp[1]),volatile=volatile)
            t = chainer.Variable(xp.asarray(inp[1]))
        with chainer.no_backprop_mode():
　　　　#if model train:
            if model:  
                optimizer.update(model, x, t)
                if not graph_generated:
                    with open('graph.dot', 'w') as o:
                        o.write(computational_graph.build_computational_graph(
                        (model.loss,)).dump())
                    print('generated graph', file=sys.stderr)
                    graph_generated = True
            else:
                model(x, t)
            res_q.put((float(model.loss.data), float(model.accuracy.data)))
            del x, t

data_qにデータを入れる

def feed_data():
    # Data feeder
    i = 0
    count = 0

x_batch = np.ndarray(
        (args.batchsize, 3, model.insize, model.insize), dtype=np.float32)
    y_batch = np.ndarray((args.batchsize,), dtype=np.int32)
    val_x_batch = np.ndarray(
        (args.val_batchsize, 3, model.insize, model.insize), dtype=np.float32)
    val_y_batch = np.ndarray((args.val_batchsize,), dtype=np.int32)

batch_pool = [None] * args.batchsize
    val_batch_pool = [None] * args.val_batchsize
    pool = multiprocessing.Pool(args.loaderjob)
    data_q.put('train')
    for epoch in six.moves.range(1, 1 + args.epoch):
        print('epoch', epoch, file=sys.stderr)
        print('learning rate', optimizer.lr, file=sys.stderr)
        perm = np.random.permutation(len(train_list))
        for idx in perm:
            path, label = train_list[idx]
            batch_pool[i] = pool.apply_async(read_image, (path, False, True))
            y_batch[i] = label
            i += 1

if i == args.batchsize:
                for j, x in enumerate(batch_pool):
                    x_batch[j] = x.get()
                data_q.put((x_batch.copy(), y_batch.copy()))
                i = 0

count += 1
            if count % denominator == 0:
                data_q.put('val')
                j = 0
                for path, label in val_list:
                    val_batch_pool[j] = pool.apply_async(
                        read_image, (path, True, False))
                    val_y_batch[j] = label
                    j += 1

if j == args.val_batchsize:
                        for k, x in enumerate(val_batch_pool):
                            val_x_batch[k] = x.get()
                        data_q.put((val_x_batch.copy(), val_y_batch.copy()))
                        j = 0
                data_q.put('train')

optimizer.lr *= 0.97
    pool.close()
    pool.join()
    data_q.put('end')
### 試したこと
学習させる画像の枚数や学習回数を変更した。

Accepted Answer

やはり，`optimizer.update()`が`with chainer.no_backprop_mode():`の中にあるのは望ましくないと思われます．
```Python
if model.train: 
    x = chainer.Variable(np.asarray(inp[0]))
    t = chainer.Variable(np.asarray(inp[1]))
    optimizer.update(model, x, t)
    if not graph_generated:
        with open('graph.dot', 'w') as o:
            o.write(computational_graph.build_computational_graph(
            (model.loss,)).dump())
        print('generated graph', file=sys.stderr)
        graph_generated = True
else:
    with chainer.no_backprop_mode():
        x = chainer.Variable(np.asarray(inp[0]))
        t = chainer.Variable(np.asarray(inp[1]))
    model(x, t)
res_q.put((float(model.loss.data), float(model.accuracy.data)))
del x, t
```

前提

実現したいこと

該当のソースコード

関連した質問