pyocrでTesseract-OCRを使い文字を読み取った時、結果の前に「Unsupported version [0.0.0]」と表示されてしまう。

Question

pyocrでTessearact-OCRを使って、画面の指定位置の文字をテキスト化する関数を作りました。動作は問題無いのですが、必ずUnsupported version [0.0.0]という警告(?)表示が出ます。windowsの環境変数のpathにはTesseract-OCRのディレクトリの位置を指定してあります。というかOCRによるテキスト化自体は問題無く成功しています。
どうやったら、この警告消えるのでしょうか？

Tesseractのバージョンは v4.0.0です。


```Python
import sys
from PIL import ImageGrab
import pyocr.builders
def gettext(imgminx=642, imgminy=872, imgmaxx=916, imgmaxy=887, gray=0):
    img = ImageGrab.grab((imgminx, imgminy, imgmaxx, imgmaxy))
    tools = pyocr.get_available_tools()

    if len(tools) == 0:
        print("No OCR tool found")
        sys.exit(1)
    tool = tools[0]

    if gray == 1:
        MIN_COLOR = 0
        MAX_COLOR = 255
        #文字を認識しやすいよう閾値200で白か黒の2値に変換
        array = np.asarray(img.convert('L'))
        array.flags.writeable = True
        w, h = img.size
        for y in range(h):
            for x in range(w):
                array[y, x] = MAX_COLOR if (array[y, x] > 200) else MIN_COLOR
        img = Image.fromarray(np.uint8(array))

    txt = tool.image_to_string( # ここでOCRの対象や言語，オプションを指定する
        img,
        lang='jpn',
        builder=pyocr.builders.TextBuilder(tesseract_layout=7)
                                )
    return txt
```

Accepted Answer

`pyocr` は `libtesseract` の [`TessVersion()` 関数から文字列のバージョン情報を取得](https://gitlab.gnome.org/World/OpenPaperwork/pyocr/blob/0.5.3/src/pyocr/libtesseract/tesseract_raw.py#L377-379) し、これを [パースする](https://gitlab.gnome.org/World/OpenPaperwork/pyocr/blob/0.5.3/src/pyocr/libtesseract/__init__.py#L242-257) ことで数値のタプルにしてバージョンを比較しているのですが、 UB Mannheim 版の Windows 向けビルドでは **`pyocr` が予期していないフォーマットでバージョン情報が返ってきている** ことが原因です。

具体的には、そのままビルドした Tesseract は `"4.0.0"` という文字列を返すのに対し、 UB Mannheim 版ビルドでは `"v4.0.0.20181030"` という **先頭に v のついた文字列** を返すという違いがあります。これにより、バージョン番号のパーサがメジャーバージョン値を 0 と誤認し、古い Tesseract を使っていると見做され警告が出力されている模様です。

幸い、この問題については `pyocr` のリポジトリに [Issue が切られて](https://gitlab.gnome.org/World/OpenPaperwork/pyocr/issues/106) おり、ちょうど [4 日前に修正版がコミットされて](https://gitlab.gnome.org/World/OpenPaperwork/pyocr/commit/4c278cfcf839d7766186fe8509f79a68342dc209) おります。 Issue では「恐らく来月頃までにこの修正を含む `pyocr` がリリースされる」と書かれているので、おとなしく **`pyocr` の新バージョンを待つ** か、或いは リポジトリから **最新の master ブランチをチェックアウトして使う** ことで問題が解消するものと思われます。まあ、前掲のコミットを見れば分かる通り大した修正ではない (正規表現を直しているだけ) ので、適当に `util.py`を手動で書き換えてやっても良いかとは思います。

関連した質問