pyocrからTesseractを使用し、pdfの帳票の一部分を切り出した画像の文字おこしを行いたいと考えています。
読み取りたい値はフォーマットが決まっており、1ケタから3ケタの数字 + 末尾にAからGまでのアルファベットがついており、すでに切り取りや二値化などの処理は終わった状態で渡されています。
ホワイトリストオプションで、
tessedit_char_whitelist 0123456789ABCDEFG
と指定しましたが、"8"が"G"等と誤読され、
G4F
1G0A
等とフォーマット上ありえない文字列として読み取られることが多くありました。
調べていく中で、正規表現で出力を制御できるような書き込みを見つけたのですが、実際のオプション設定の方法が記載されておらず、「Tesseract 正規表現」などと検索しても目当ての情報を得ることができませんでした。
自分の認識としては、
^[0-9]{1-3}[A-G]$
のようにすることで、末尾1文字を指定アルファベット、それ以外を数字として絞り込んだ状態で認識してくれる様なイメージでした。
これはOCR後の文字列から正規表現で検索できるという意味だったのでしょうか。
もし正規表現を使用した方法があればご教授願いたいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/09/06 00:02