質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

4062閲覧

pyocrでTesseract-OCRを使い文字を読み取った時、結果の前に「Unsupported version [0.0.0]」と表示されてしまう。

Aki1000

総合スコア78

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/12/10 00:28

編集2018/12/10 01:55

pyocrでTessearact-OCRを使って、画面の指定位置の文字をテキスト化する関数を作りました。動作は問題無いのですが、必ずUnsupported version [0.0.0]という警告(?)表示が出ます。windowsの環境変数のpathにはTesseract-OCRのディレクトリの位置を指定してあります。というかOCRによるテキスト化自体は問題無く成功しています。
どうやったら、この警告消えるのでしょうか?

Tesseractのバージョンは v4.0.0です。

Python

1import sys 2from PIL import ImageGrab 3import pyocr.builders 4def gettext(imgminx=642, imgminy=872, imgmaxx=916, imgmaxy=887, gray=0): 5 img = ImageGrab.grab((imgminx, imgminy, imgmaxx, imgmaxy)) 6 tools = pyocr.get_available_tools() 7 8 if len(tools) == 0: 9 print("No OCR tool found") 10 sys.exit(1) 11 tool = tools[0] 12 13 if gray == 1: 14 MIN_COLOR = 0 15 MAX_COLOR = 255 16 #文字を認識しやすいよう閾値200で白か黒の2値に変換 17 array = np.asarray(img.convert('L')) 18 array.flags.writeable = True 19 w, h = img.size 20 for y in range(h): 21 for x in range(w): 22 array[y, x] = MAX_COLOR if (array[y, x] > 200) else MIN_COLOR 23 img = Image.fromarray(np.uint8(array)) 24 25 txt = tool.image_to_string( # ここでOCRの対象や言語,オプションを指定する 26 img, 27 lang='jpn', 28 builder=pyocr.builders.TextBuilder(tesseract_layout=7) 29 ) 30 return txt

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

dodox86

2018/12/10 01:48

こちらに関連する質問、回答がありました。 https://teratail.com/questions/149025 回答へのコメントによるとtesseractのバージョンにも依存してそうですので、バージョンを明記すると更に適切な回答を得やすくなるかも、です。
Aki1000

2018/12/10 01:55

ありがとうございます。追記しました。
argparse

2018/12/10 09:52

Windows 用 Tesseract 4.0.0 はどちらから入手なさいました? 御自身でのビルドでしょうか。
Aki1000

2018/12/11 00:22 編集

公式のGithubのHPから書いてあったInstall Tesseract via pre-built binary package の Windows項から リンクの「Tesseract at UB Mannheim」 をクリックして Tesseract at UB Mannheimをインストールしました。
guest

回答1

0

ベストアンサー

pyocrlibtesseractTessVersion() 関数から文字列のバージョン情報を取得 し、これを パースする ことで数値のタプルにしてバージョンを比較しているのですが、 UB Mannheim 版の Windows 向けビルドでは pyocr が予期していないフォーマットでバージョン情報が返ってきている ことが原因です。

具体的には、そのままビルドした Tesseract は "4.0.0" という文字列を返すのに対し、 UB Mannheim 版ビルドでは "v4.0.0.20181030" という 先頭に v のついた文字列 を返すという違いがあります。これにより、バージョン番号のパーサがメジャーバージョン値を 0 と誤認し、古い Tesseract を使っていると見做され警告が出力されている模様です。

幸い、この問題については pyocr のリポジトリに Issue が切られて おり、ちょうど 4 日前に修正版がコミットされて おります。 Issue では「恐らく来月頃までにこの修正を含む pyocr がリリースされる」と書かれているので、おとなしく pyocr の新バージョンを待つ か、或いは リポジトリから 最新の master ブランチをチェックアウトして使う ことで問題が解消するものと思われます。まあ、前掲のコミットを見れば分かる通り大した修正ではない (正規表現を直しているだけ) ので、適当に util.pyを手動で書き換えてやっても良いかとは思います。

投稿2018/12/11 02:33

argparse

総合スコア1017

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Aki1000

2018/12/11 04:39

ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問