MNISTに誤差逆伝播法を実装したが精度が下がる(C#)

###前提・実現したいこと
C#で機械学習の勉強を行っており、手始めにMNISTの文字認識を勉強しています。
ただ誤差逆伝播法を入れた時に学習率が向上せず、どこがおかしいのかもわからず困っております。

###プログラムの概要
2828の元画像に対して畳み込みとプーリングを繰り返して44の画像×16フィルタまで落とし込み、
4416=256個の値を入力層のユニットとし、パーセプトロンに通します。
隠れ層は100ユニットで、出力層は10ユニットです。
中間層ではReLUを使用し、出力層ではSoftMaxを使用しています。
出力層で出た値”ValueProb[10]”と、実際の値”IdealArray[10]”をスタートとし、誤差逆伝播法を適用しました。

畳み込み及びパーセプトロン部分での重みの初期値は、平均0、分散(1/ユニット数)の正規分布に従う乱数で設定しました。
まだミニバッジの実装方法を理解していないのでオンライン学習を行っています（画像を1枚読むたびに重みを更新しています）。ランダムに15000枚学習させています。
ドロップアウトもまだ勉強不足で入れていません。

###発生している問題
隠れ層⇔出力層の重みのみ更新し、他の重みは初期乱数のまま固定した場合は約75%程度の精度が出るのですが、
重みの更新を入力層⇔隠れ層まで伝播させた際に認識率が30%~50%程度まで落ちてしまいます。
恐らくコードが間違っているのだとは思いますが、どこが違うのか分からず困っております。

逆伝播部分

C#
1//学習率は0.01
2LearningRate = 0.01;
3
4//①出力層のδ（勾配）作成
5DeltaOut = new double[10];
6for (int i = 0; i < 10; i++)
7{
8    DeltaOut[i] = ValueProb[i] - IdealArray[i];
9}
10
11//②隠れ層のδ（勾配）作成
12DeltaHidden = new double[101];
13for (int i = 0; i < 101; i++)
14{
15    for (int j = 0; j < 10; j++)
16    {
17        DeltaHidden[j] += DeltaOut[j] * WeightOut[j][i]; //WeightOut=隠れ層→出力層の重み
18    }
19}
20
21//①出力層の重さ更新
22for (int i = 0; i < 10; i++)
23{
24    for (int j = 0; j < 101; j++)
25    {
26        WeightOut[i][j] -= LearningRate * DeltaOut[i] * PixelValueOut[j]; //PixelValueOut = 隠れ層から出力層へ向かう値
27    }
28}
29
30//②隠れ層の重さ更新
31for (int i = 0; i < 101; i++)
32{
33    for (int j = 0; j < 257; j++)
34    {
35        WeightHidden[i][j] -= LearningRate * DeltaHidden[i] * PixelValueHidden[j]; //PixelValueHidden = 入力層から隠れ層へ向かう値
36    }
37}

このままだと認識率は30%~50%なのですが、
コードの最後の「②隠れ層の重さ更新」部分をコメントアウトする事で75%の精度が出ます。
バイアス部分の重みもまとめて更新しているので257→101→10という数字が使われています。

###試したこと
活性化関数をsigmoidに変更、学習率の調整、学習回数の調整、
重さの初期値を一様乱数に変更、
その他入力層の値を事前にsigmoidに通したりReLUに通したりしましたが改善できませんでした。
出力部分だけ重さ更新した場合にはそれなりの精度が出ているので、大筋は間違っていないと考えております。

###補足情報
出力層はsoftMaxで求めているので、勾配を求める際に(1-y)*yのような式をかける必要がある気はしますが、
出力がほとんど0か1になった際に、間違った位置で学習が止まってしまう事が多かったので消しました。
その他ご不明点ございましたらおっしゃっていただければと思います。

どうか修正箇所をご教授いただければと思います。