やはり、何回も人工知能の専門用語が出てきて難解ですね。
機械学習モデルが画像認識のためだけではないという点をアピールしたわけですが、機械学習モデルの手掛かりにしていることはできあがってみないと分からないということです。naganumaさんの取り上げているのは、訓練データ1つ分に過ぎないし、訓練データには見つからない画像も見つからないという情報とともに用意することもあります。
私の回答の「勾配降下法・・・」以降の部分は、連立方程式の解き方を空間上のグラフの問題として説明したので、画像認識と紛らわしかったですね。お詫びいたします。
同様のことをグラフではなく複雑な連立方程式として説明すれば、機械学習モデルの実体は連続した行列式に被判定データを掛けていくと意味のある判定結果を出力されるその方程式の集まりです。例えばnaganumaさんが示された画像にあてはめて、23コマ×12行の訓練データ(つまり276ドット)が100枚ある形の多元連立方程式を考えるとします。1ドットずつの明暗情報が手掛かりとして、個々の黒さの数値を方程式にすれば、
k1の1 * x1の1 + k1の2 * x1の2 + ・・・ + k1の276 * x1の276 + a1の276 = y1
k2の1 * x2の1 + k2の2 * x2の2 + ・・・ + k2の276 * x2の276 + a2の276 = y2
:
k100の1 * x100の1 + k100の2 * x100の2 + ・・・ + k100の276 * x100の276 + a100の276 = y100
のように方程式が、100行並びます。さらに
a1 * y1 + a2 * y2 + ・・・ + a100 * y100 = 判定値
というふうに連立方程式が連続して成り立ちます。この各x1からx276のデータの集合100種類と正解の判定値が与えられたときに、ディープラーニングの解き方としては、しらみつぶしに各係数及び定数の値を取り替えていき、よりふさわしい方程式を構成しようとします。その値の変え方にコツがあり、微分や確率・統計やベクトルの内積などの高度な数学が応用されます。(その説明が難しいので私はあえて高次元立体の操作として説明しました。)そして、いったん検証用のデータで正解率を確かめて、その正解率が100%に近ければ実用的な機械学習モデルとして使えるし、正解率が低い場合は、データの選定や取り上げる項目の見直しなどの修正をおこない、機械学習モデルを作り直します。
最終的にふさわしい方程式群が完成したら、実際の画像をこの方程式群を通したときに正しい判定値、例えば存在可能性90%とか存在可能性1%とかと判定されます。
このできあがった方程式群の判定ルールが、お考えのように空白に目を付けたものなのか、斜めや縦の明暗の法則性に目を付けたものなのかは、分からないのです。今後の研究分野として、その法則性を見つけ出して、新しい科学的な発見となるようなことが起きるかもしれませんが、画像だからこの法則性をとか、音声認識だからのこの法則性をとか、景気判断だからこの法則性をとか導くのはむずかしいのです。
私の説明ではややこしいばかりかもしれませんので、機械学習の仕組みを親切に図を交えて分かりやすく説明してくれている次の記事が参考になると思います。
【3分で理解】ニューラルネットワークを解説!前編「パーセプトロン」とは?