BERTによるchatbotの応答が一辺倒になってしまう

前提

こちらのサイトを参考にBERTによる日本語chatbotを実装し、そこで公開されていた300万対ほどのtwitter対話データで学習を行ったのですが、応答がなぜか「おはようございます」だけになってしまいます。正常に動きはするのですが、応答だけが一辺倒になってしまうようです。

teratail上で全く同じ症状で悩んでいた人を見つけ、config.pyが原因であることはわかったのですが、コード中のどこを手直しすればよいかがわかりません。どなたか教えていただけないでしょうか。

実現したいこと

発話に対して多様性のある応答を生成する

該当のソースコード

main.py

python
1import logging
2import os
3import pickle
4
5import torch
6import torch.nn as nn
7import torch.optim as optim
8
9from config import Config
10from nn import build_model
11from tokenizer import Tokenizer
12from utils import (DialogDataset, one_cycle, evaluate,
13                   seed_everything, BalancedDataLoader,
14                   make_train_data_from_txt, make_itf)
15
16logging.basicConfig(level=logging.INFO)
17
18if __name__ == '__main__':
19    logging.info('*** Initializing ***')
20
21    if not os.path.isdir(Config.data_dir):
22        os.mkdir(Config.data_dir)
23
24    seed_everything(Config.seed)
25    device = torch.device(Config.device)
26
27    start_epoch = 0
28    tokenizer = Tokenizer.from_pretrained(Config.model_name)
29
30    logging.info('Preparing training data')
31    if Config.use_pickle:
32        with open(f'{Config.pickle_path}', 'rb') as f:
33            train_data = pickle.load(f)
34    else:
35        train_data = make_train_data_from_txt(Config, tokenizer)
36    itf = make_itf(train_data, Config.vocab_size)
37    dataset = DialogDataset(train_data, tokenizer)
38
39    logging.info('Define Models')
40    model = build_model(Config).to(device)
41    model.unfreeze()
42
43    logging.info('Define Loss and Optimizer')
44    criterion = nn.CrossEntropyLoss(reduction='none')
45    optimizer = optim.AdamW(model.parameters(), lr=Config.lr, betas=Config.betas, eps=1e-9)
46
47    if Config.load:
48        state_dict = torch.load(f'{Config.data_dir}/{Config.fn}.pth')
49        start_epoch = 10
50        print(f'Start Epoch: {start_epoch}')
51        model.load_state_dict(state_dict['model'])
52        optimizer.load_state_dict(state_dict['opt'])
53
54    logging.info('Start Training')
55    for epoch in range(start_epoch, Config.n_epoch):
56        one_cycle(epoch, Config, model, optimizer, criterion,
57                  BalancedDataLoader(dataset, tokenizer.pad_token_id),
58                  tokenizer, device)
59        evaluate(Config, 'おはよーーー', tokenizer, model, device)

config.py

python
1class Config:
2    seed = 116
3    device = 'cpu'
4
5    n_epoch = 3
6    batch_size = 64
7    max_len = 22
8    lr = 1e-3
9    betas = (0.9, 0.98)
10
11    vocab_size = 32000
12    num_head = 8
13    d_model = 768
14    num_layer = 6
15    d_ff = 2048
16    drop_rate = 0.1
17    max_grad_norm = 1.0
18
19    smoothing = 0.1
20    factor = 2
21    warmup = 4000
22
23    # FIXME: Change path of training data.
24    data_dir = './data'
25    train_data_path = f'{data_dir}/train_data.txt'
26    pickle_path = f'{data_dir}/train_data.pkl'
27    fn = 'ckpt'
28
29    load = False
30    # FIXME: if you use original data, change flag of this
31    use_pickle = True
32
33    model_name = 'bert-base-japanese-whole-word-masking'

can110

2022/07/19 07:17

「BERTによるchatbot」環境構築において - 具体的に行った全ての手順（「このサイトを参考にしました」ではなく）環境構築後～実行時において - 意図しない応答になるような具体的な実行手順 - 何がどのような理由で「正常に動いている」と判断したのかを提示すると回答得られやすくなるかと思います。