Keras による RNN 実装サンプルを PyTorch で実装したいが上手くいかない

Question

### 実現したいこと
ここに実現したいことを箇条書きで書いてください。
- [松尾研究室が公開している学習コンテンツ](https://github.com/matsuolab-edu/dl4us)の Keras による RNN 実装を PyTorch で実現したい。

### 前提
現在、東京大学松尾研究室が公開している、機械学習・深層学習の教材 DL4US を利用して深層学習の独習をしています。学習において、教材を読むのに合わせてコードを写経しているのですが、ただ写経するだけでは「分かったつもり」で流してしまうかもしれませんので、自分の理解度を確認するため Pytorch で同じ機能の実装しながら進めています。

現在、[Lesson3 の Section2](https://github.com/matsuolab-edu/dl4us/blob/master/lesson3/lesson3_sec2_exercise.ipynb) で RNN の実装を学習しているところですが、教材の Keras による RNN 実装を Pytorch で実現しようとしても、明らかに性能が劣ったものしか作れていません。私の実装の問題点をご指摘いただき、どのように改善すれば教材の実装と同程度の性能を実現できるか、ご教示よろしくお願いします。

### 教材の実装の Fix 版
上記教材は公開が2019年と古く、2023年4月8日現在、ダウンロードを指定された ECG5000 のデータの仕様が変わっているため、その点を私的にフィックスしたソースが以下になります。
```Python
!wget -P ./data/ http://timeseriesclassification.com/Downloads/ECG5000.zip
!unzip -d ./data/ /content/data/ECG5000.zip

from scipy.io import arff
import numpy as np

# TEST.arff のデータが4500件、TRAIN.arff のデータが500件、
# これは多分名前が取り違えられてると思うので、TRAIN と TESTの役割を入れ替え
train_dataset, train_meta = arff.loadarff('data/ECG5000_TEST.arff')
train_ds = np.asarray(train_dataset.tolist(), dtype=np.float32)
x_train_dataset = train_ds[:, :140]
y_train_dataset = np.asarray(train_ds[:,-1].tolist(), dtype=np.int8)-1

test_dataset, test_meta = arff.loadarff('data/ECG5000_TRAIN.arff')
test_ds = np.asarray(test_dataset.tolist(), dtype=np.float32)
x_test_dataset = test_ds[:, :140]
y_test_dataset = np.asarray(test_ds[:,-1].tolist(), dtype=np.int8)-1

print(x_train_dataset.shape)
print(y_train_dataset.shape)
print(x_test_dataset.shape)
print(y_test_dataset.shape)

#(4500, 140)
#(4500,)
#(500, 140)
#(500,)

from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical

x_train = x_train_dataset[:,:,np.newaxis] 
y_train = to_categorical(y_train_dataset)

x_test = x_test_dataset[:,:,np.newaxis] 
y_test = to_categorical(y_test_dataset)

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, SimpleRNN

hid_dim = 10

# SimpleRNNにDenseを接続し、分類
model = Sequential()

model.add(SimpleRNN(hid_dim, input_shape=x_train.shape[1:])) # input_shape=(系列長T, x_tの次元), output_shape=(units(=hid_dim),)
model.add(Dense(y_train.shape[1], activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(x_train, y_train, epochs=50, batch_size=100, verbose=2, validation_split=0.2)

score = model.evaluate(x_test, y_test, verbose=0)
print('test_loss:', score[0])
print('test_acc:', score[1])
```
上記コードの [Colab リンク](https://colab.research.google.com/drive/1IuYDdDcoZgzP5Rfv74J8IByCigImAEZI?usp=sharing)
以上のコードを実行して頂くと、テストデータに対してだいたい90%前後の正解を出せるモデルが完成します。

### 教材版の RNN と同機能を実現したいと思うも上手くいっていない私の Pytorch 実装
```Python
from scipy.io import arff
import numpy as np
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torch import nn
from tqdm.notebook import tqdm

!wget -P ./data/ http://timeseriesclassification.com/Downloads/ECG5000.zip 
!unzip -d ./data/ /content/data/ECG5000.zip

# TEST.arff のデータが4500件、TRAIN.arff のデータが500件、
# これは多分名前が取り違えられてると思うので、TRAIN と TESTの役割を入れ替え
down_loaded_train_data, train_meta = arff.loadarff("data/ECG5000_TEST.arff")
down_loaded_test_data, test_meta = arff.loadarff('data/ECG5000_TRAIN.arff')

print(len(down_loaded_train_data)) # 4500
print(len(down_loaded_train_data[0])) # 141

print(len(down_loaded_test_data)) # 500
print(len(down_loaded_test_data[0])) # 141

class CustomDataset(Dataset):
    def __init__(self, dataset=None, time_series_size=None):
        dataset = np.array(dataset.tolist(), dtype=np.float32)
        labels_index = torch.from_numpy(dataset[:, -1]).to(torch.long) - 1

self.X = torch.from_numpy(dataset[:, :time_series_size]).unsqueeze(2)
        self.y = labels_index
    
    def __len__(self):
        return len(self.X)
    
    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

time_series_size = 140 # 一件のデータの時系列サイズが140 で、ラベルが1つ
train_data = CustomDataset(down_loaded_train_data, time_series_size)
test_data = CustomDataset(down_loaded_test_data, time_series_size)

# Dataset から DataLoader を作成
batch_size=100
train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_data, batch_size=batch_size)

class MyRNN(nn.Module):
    def __init__(self, input_size=1, hidden_size=1):
        super().__init__()
        
        self.num_rnn_layers = 1
        self.input_size = input_size
        self.hidden_size = hidden_size

self.rnn = nn.RNN(input_size, hidden_size)
        self.fc = nn.Linear(hidden_size, 5)
    
    def hidden_initialize(self, time_series_size):
        return torch.zeros((self.num_rnn_layers, time_series_size, self.hidden_size))
    
    def forward(self, x, hidden):
        output, hidden = self.rnn(x, hidden)
        output = self.fc(output[:, -1])
        return output, hidden

hidden_size = 10
model = MyRNN(1, hidden_size)
optimizer = torch.optim.Adam(model.parameters(), lr=0.002)
criterion = nn.CrossEntropyLoss()

EPOCHS = 50
losses = []

for epoch in range(EPOCHS):

with tqdm(train_loader) as progress:
    
        for X, y in progress:
            optimizer.zero_grad()
            hidden = model.hidden_initialize(time_series_size)
            output, hidden = model(X, hidden)
            loss = criterion(output, y)
            loss.backward()
            optimizer.step()

with torch.no_grad():
                acc = (output.argmax(dim=1) == y).sum() / batch_size
                losses.append(loss.item())
           
            progress.set_postfix(acc=acc.item())
        
        print("loss: ", loss.item()) 
        print("acc_cal: ", acc.item())

print(acc.item())
```
上記コードの [Colab リンク](https://colab.research.google.com/drive/1IbquXXOhpJZvRondafBt35aKfuttAd7v?usp=sharing)
以上のコードを実行しても、正解率は60%を中心に、しかも上下に10%ほど激しく正解率のブレるモデルしか作れずにいます。
![loss の推移をプロットした画像](https://ddjkaamml8q8x.cloudfront.net/questions/2023-04-08/d9a0e3c5-6511-4771-8f6b-5053e1d51f37.png)loss の推移をプロットした画像

これがまったく何も学習していないようなら諦めて挫折もできるのですが、一応最序盤に少しだけ学習は出来ているようなのでなかなか諦めきれず、私のモデルをどのように改善すれば教材のモデルと同程度の性能のモデルになるかお教えいただきたく思っております。よろしくお願いします。

Accepted Answer

学習率の不一致と`nn.RNN`がデフォルトで`batch_first=False`であることの差異によるものと考えられる．

```diff
from scipy.io import arff
import numpy as np
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torch import nn
from tqdm.notebook import tqdm