OCRの学習素材を自作する方法

Question

OCRを用いたプログラムの開発をしているのですが、その中で**特定の文字種に特化した学習素材**が必要になりました。
しかし、有効と思われる素材が中々見つからなかったので、自作することにしました。
現状、精度は重視せず、とりあえず使えるものを作るだけ作ろうと考えています。

https://ebi-works.com/ocr-python/
↑こちらのサイトを参考にしようと思っているのですが、
> 本来は自分で素材を準備して使用するのが良いですが、今回はネット上に公開されている機械学習向けの素材を使用させていただきます。
とのことで、学習素材そのものを作る方法は書かれていません。
また同サイトで提示されているletter.dataについても、画像化および画像のテキスト化の方法が分からず困っています。

_**letter.dataはどのようなファイルで、どうやって作られたものなのでしょうか？**_
また、_**このような学習素材を自作する場合、どのような手順を踏むのが適切でしょうか？**_

### 試したこと

「OCR」「学習データ」「作り方」などで検索をかけてみたものの、出てくるのはOCR技術や学習素材の使い方ばかりで、素材の作り方は出てきませんでした。
また、letter.dataをメモ帳やバイナリエディタで開いてみましたが、規則的な書き方はされていたもののそれ以上の手掛かりは得られませんでした。[当該ファイルのDL元](http://ai.stanford.edu/~btaskar/ocr/)によると、手書きの文字をラスター化？しているようですが…。

### 補足情報（FW/ツールのバージョンなど）

開発にはPython 3.11.5を用いていますが、学習素材を作るのに不向きであれば別の環境を使うことも視野に入れています。

Accepted Answer

1行目はこうです(区切りはタブです)。**テキストエディタがあれば見えます**。
```
1	o	2	1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	1	1	0	0	0	0	0	1	1	1	1	1	0	0	0	1	0	0	0	1	1	0	1	1	0	0	0	0	1	1	1	0	0	0	0	0	0	1	1	0	0	0	0	0	0	1	1	0	0	0	0	0	0	1	1	0	0	0	0	0	1	1	1	0	0	0	1	1	1	0	1	1	1	1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	
```
データ(フィールド)が134個なのは**数えれば分かります**。
https://ai.stanford.edu/~btaskar/ocr/ にフィールドの意味が書いてあって、1〜6番目までがメタデータで7番目以降がピクセルデータだと分かります。
ならばデータは**128個です**。
文字のピクセルデータなら 8×16 か 16×8 だろうな、と**想像します**。
ならばまず8個ずつ区切ってみようと思います。
実際にテキストエディタで**手を動かしてやってみます**。
```
00000000
00000000
00000000
01110000
01111100
01000110
11000011
10000001
10000001
10000001
10000011
10001110
11111000
00000000
00000000
00000000
```
と見えます。
2番目のフィールドが o だったので合ってそうです。

ということをすればよかったです。

この01の形にタブを入れて、適宜改行もタブにすれば、必要な形式のデータになります。
つまり**テキストエディタさえあればデータは作れます**。

----

> このような学習素材を自作する場合、どのような手順を踏むのが適切でしょうか？

手で書いて白黒に変換してファイルに書く 以外ないわけで、
ボールペンで紙に手書きしたデータを20代〜60代まで偏りなく集めたい
とか
ディスプレイに向かってマウスで書いたという特徴を持ったデータを集めたい。個人の属性は問わない
とか
とりあえず自分で書いた文字でいいから方眼用紙にとにかく手書きすればいい
とか
そういう条件が**まずあって**、それをクリアするにはどうするのか? 例えば、何を用意するのか? どこでどう人を募集するか? という検討が要ります。それはTeratailの範疇を超える話でしょう。