VB.NETでtesseract-ocrを利用してみたのですが、思っていた結果が得られません。
VB.NET
1 Private Sub Button1_Click(sender As Object, e As EventArgs) Handles Button1.Click 2 Dim tesseract = New Tesseract.TesseractEngine("C:\tesseractdata\jpn", "jpn") 3 Dim img = New System.Drawing.Bitmap("capture.png") 4 Dim pix = PixConverter.ToPix(img) 5 Dim page = tesseract.Process(pix) 6 System.Console.Write(page.GetText()) 7 End Sub
最大20文字500通り程度の文章の中からランダムに文字が画像として出てくる画面をキャプチャしてその文字をテキストとして得たいのですが
tesseract-ocr基本的な使い方をしても、かなり精度が悪く、まともにテキストが得られません。
出てくる文字は500通りの決まった文章なので、それで辞書などを作ってそれと比較し、一番辞書内で近い文章を出力し、高精度に画面通りのテキストを得るといったような事は出来ませんでしょうか?
または他に上記を実現出来そうな手法などアイデアありましたら、ご教授いただければ幸いです。
宜しくおねがいします。
あなたの回答
tips
プレビュー