TesseractでのOCRを正規表現で制御したい

Question

pyocrからTesseractを使用し、pdfの帳票の一部分を切り出した画像の文字おこしを行いたいと考えています。

読み取りたい値はフォーマットが決まっており、1ケタから3ケタの数字 + 末尾にAからGまでのアルファベットがついており、すでに切り取りや二値化などの処理は終わった状態で渡されています。


ホワイトリストオプションで、
`tessedit_char_whitelist 0123456789ABCDEFG`
と指定しましたが、"8"が"G"等と誤読され、

G4F
1G0A

等とフォーマット上ありえない文字列として読み取られることが多くありました。

調べていく中で、正規表現で出力を制御できるような書き込みを見つけたのですが、実際のオプション設定の方法が記載されておらず、「Tesseract 正規表現」などと検索しても目当ての情報を得ることができませんでした。

自分の認識としては、
`^[0-9]{1-3}[A-G]$`
のようにすることで、末尾1文字を指定アルファベット、それ以外を数字として絞り込んだ状態で認識してくれる様なイメージでした。
これはOCR後の文字列から正規表現で検索できるという意味だったのでしょうか。
もし正規表現を使用した方法があればご教授願いたいです。

Accepted Answer

[Tesseract OCR force pattern](https://stackoverflow.com/questions/31874393/tesseract-ocr-force-pattern)に書かれているようにやってみてはいかがですか？

[TESSERACT(1) Manual Page](https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc)のbazaarファイルを作成して、そこに正規表現のパターンを書いておくようです。