深層学習の損失関数の推移に対してどのようなことが考えられるか

現在深層学習を用いてシステム開発を行っています。
言語 python ライブラリ　keras
モデルの良し悪しを評価するための指標として損失関数の推移を用いようとしていますが、以下の画像のように損失関数がエポック後半で急激に上昇する場合どんな事が考えられますか？
また、学習時とテスト時の損失関数が離れている場合,どんなことが考えられるかも教えていただきたいです。

該当のソースコード

python
1import os
2import numpy as np
3from sklearn.model_selection import train_test_split
4from sklearn import preprocessing
5from matplotlib import pyplot as plt
6import tensorflow as tf
7from tensorflow.keras.layers import Conv1D,LSTM,Dense,Input
8#from tensorflow.keras.models import Model
9from tensorflow.keras.models import Sequential
10from tensorflow.keras.utils import plot_model
11import pandas as pd
12
13#シーケンスに沿ったデータを作成する関数--------------------------------------------------------
14def make_dataset():
15    for i in range(1,21):
16        for j in range(1,61):
17            path="E:\\最強データ2_フレーム揃え\\all\\Actor_"+str(i)+"\\LSTM\\合体"+str(j)+".csv"
18            df=pd.read_csv(path,index_col=0,header=0)
19            
20            df.pop("AU01_r")
21            df.pop("AU05_r")
22            df.pop("AU07_r")
23            df.pop("AU06_r")
24            df.pop("AU12_r")
25            df.pop("AU15_r")
26            df.pop("AU23_r")
27            yy=df["AU04_r"]             
28            yyy=yy.values.astype(float)
29            yyy_seikika=preprocessing.minmax_scale(yyy)
30            df.pop("AU04_r")
31            
32            data = df.values.astype(float)
33            ms = preprocessing.MinMaxScaler()
34            data_seikika=ms.fit_transform(data)
35            
36            x.append(data_seikika)
37            y.append(yyy_seikika)
38    
39    return np.array(x), np.array(y)
40
41
42x=list()
43y=list()
44x,y= make_dataset()
45
46x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size = 0.1)
47
48
49model = Sequential()
50model.add( tf.keras.layers.Input(shape=(111,129)))
51model.add(tf.keras.layers.LSTM(129, return_sequences=True))
52model.add(Conv1D(111, 16, padding='same', input_shape=(111, 129), activation='relu'))
53model.add(Conv1D(111, 16, padding='same', activation='relu'))
54model.add(Conv1D(32, 16, padding='same', activation='relu'))
55model.add(Conv1D(1, 16, padding='same', activation='tanh'))
56
57plot_model(model, to_file='model_conv.png', show_shapes=True)
58
59adam=tf.keras.optimizers.Adam(lr=0.001)
60model.compile(
61    optimizer = adam,#最適化アルゴリズム
62    loss = "mse",#損失関数
63    metrics = ["mae"]#評価関数
64)
65
66plot_model(model)
67history=model.fit(
68    x_train, y_train,
69    epochs = 2048,
70    batch_size = 32,
71    validation_data = (x_valid, y_valid)
72)
73
74pred = model.predict(x_valid)
75
76t=list()
77for i in range(1,112):
78    t.append(i)
79
80plt.plot(history.history['loss']) # 訓練データの値 
81plt.plot(history.history['val_loss']) # テストデータの値 
82plt.title('Model loss') # グラフのタイトル 
83plt.ylabel('Loss') # グラフのY軸ラベル 
84plt.xlabel('Epoch') # グラフのX軸ラベル 
85plt.legend(['Train', 'Test'], loc='upper left') # 凡例の表示
86plt.show() # グラフを表示する
87
88for i in range(0,12):
89    fig_size = plt.rcParams['figure.figsize']#グラフのサイズを決める変数
90    fig_size[0] = 5
91    fig_size[1] = 5
92    plt.rcParams['figure.figsize'] = fig_size
93
94    plt.title('Number of AU04')#グラフタイトル
95    plt.ylabel('AU04')#y軸の値
96    plt.grid(True)#グラフにグリッド線を引く
97    plt.autoscale(axis='x', tight=True)#グラフの自動スケーリング
98    plt.plot(t,y_valid[i],label='jissokuti')#実測値の値を持ってくる
99    plt.plot(t, pred[i], label = "predict")#予測値の値を持ってくる
100    plt.legend()#凡例を表示してくれる
101    plt.show()
102
103model.save("E:\\卒業研究\\モデル\\model\\keras_conv_AU04.h5")

試したこと

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

jbpb0

2023/01/16 10:11

> 学習時とテスト時の損失関数が離れている場合,どんなことが考えられるか過学習が起きてるのではないですかね

ps_aux_grep

2023/01/16 20:14

10-30epoch目あたりで橙線が減少から上昇に転じているので，それ以降，過学習が起きています． 800epoch目あたりのspike現象は次の回答を参照してください． https://stats.stackexchange.com/a/380271 主に * 性能の高いOptimizerの利用 * 高い学習率 * バッチの偏りによるものです．学習率に関してはReduceLROnPlateau https://keras.io/api/callbacks/reduce_lr_on_plateau/ を利用して対処してください．