Tesseract エラーメッセージ（ TesseractError: (1, b'read_params_file: parameter not found: textord_tabfind_ve）

Question

こちらのコードを参照にpythonでTesseractを使ったOCR（文字認識）を実行しました。
https://qiita.com/mczkzk/items/393abc70836b9bde2f60

すると以下のようなエラメッセージが出ました。公式のドキュメントをみてもわかりませんでした。どのようにしたらよいでしょうか。

Tesseact4.00
Ubuntu: 18.04
pyocr: 0.7.2
traindataは
https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
tesseract-ocr-3.02.jpn.tar.gzからダウンロードした
jpn.traineddataを/usr/share/tesseract-ocr/4.00/tessdataに格納しました。

python
1from PIL import Image
2import sys
3sys.path.append('/path/to/dir')
4
5import pyocr
6import pyocr.builders
7
8tools = pyocr.get_available_tools()
9if len(tools) == 0:
10    print("No OCR tool found")
11    sys.exit(1)
12tool = tools[0]
13print("Will use tool '%s'" % (tool.get_name()))
14
15langs = tool.get_available_languages()
16print("Available languages: %s" % ", ".join(langs))
17
18txt = tool.image_to_string(
19    Image.open('test.png'),
20    lang='jpn',
21    builder=pyocr.builders.TextBuilder()
22)
23print(txt)
24

python
1---------------------------------------------------------------------------
2TesseractError                            Traceback (most recent call last)
3<ipython-input-15-2b6f2c56b032> in <module>
4     10 txt = tool.image_to_string(
5     11   Image.open('./test.png'),
6---> 12   lang = 'eng+jpn'
7     13 )
8     14 
9
10/usr/local/lib/python3.6/dist-packages/pyocr/tesseract.py in image_to_string(image, lang, builder)
11    364                                          configs=builder.tesseract_configs)
12    365         if status:
13--> 366             raise TesseractError(status, errors)
14    367 
15    368         tested_files = []
16
17TesseractError: (1, b'read_params_file: parameter not found: textord_tabfind_vertical_horizontal_mix\n')

Answer

自分でインストールしたTesseactのバージョンに対して、より古いバージョン用のデータを使ったらエラーがでてもなんの不思議でもないのでは。

github で検索すると

[https://github.com/tesseract-ocr/langdata/pull/121](https://github.com/tesseract-ocr/langdata/pull/121)
[https://github.com/tesseract-ocr/tesseract/issues/1441](https://github.com/tesseract-ocr/tesseract/issues/1441)

で報告されてますね。

実際に試してないですが、ステータスが Merged になっているのでいま提供されている4.00用のファイルを使えば問題ないと思います。

関連した質問