pyocrで謎のエラー

###pyocrのコードをそのまま流しているのにエラー

lang
1from PIL import Image
2import sys
3
4import pyocr
5import pyocr.builders
6
7tools = pyocr.get_available_tools()
8if len(tools) == 0:
9    print("No OCR tool found")
10    sys.exit(1)
11# The tools are returned in the recommended order of usage
12tool = tools[0]
13print("Will use tool '%s'" % (tool.get_name()))
14# Ex: Will use tool 'libtesseract'
15
16langs = tool.get_available_languages()
17print("Available languages: %s" % ", ".join(langs))
18lang = langs[0]
19print("Will use lang '%s'" % (lang))
20# Ex: Will use lang 'fra'
21# Note that languages are NOT sorted in any way. Please refer
22# to the system locale settings for the default language
23# to use.
24
25txt = tool.image_to_string(
26    Image.open('iroha.png'),
27    lang="jpn",
28    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
29)
30print( txt )
31# txt is a Python string
32

エラー

Traceback (most recent call last):
  File "ocr.py", line 28, in <module>
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
  File "C:\Users\jun_endo\AppData\Local\Continuum\anaconda3\lib\site-packages\pyocr\tesseract.py", line 367, in image_to_string
    raise TesseractError(status, errors)
pyocr.error.TesseractError: (1, b'Error opening data file C:\Program Files (x86)\Tesseract-OCR\tessdata/jpn.traineddata\r\nPlease make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.\r\nFailed loading language \'jpn\'\r\nTesseract couldn\'t load any languages!\r\nCould not initialize tesseract.\r\n')

このエラーの意味と、
解決方法を教えてください。

行動規範の内容に同意します

回答1件

ベストアンサー

TESSDATA_PREFIX環境変数が適切に設定されていない、必要なデータが参照できないと云われています。

参考までにWSLでの設定手順を示します。
参考：【PyOCR】画像から日本語の文字データを抽出する

tesseract-ocr/tesseractに従い以下をインストール。

Bash
1$ sudo apt install tesseract-ocr
2$ sudo apt install libtesseract-dev

Data Files から以下をダウンロード。

以下に配置。

Bash
1$ sudo mkdir /usr/local/share/tessdata/
2$ sudo mv jpn.traineddata /usr/local/share/tessdata/
3$ (その他も同様に)

TESSDATA_PREFIX環境変数を追加

Bash
1$ nano .bashrc
2(略)
3# for tesseract can110
4if [ -f /usr/bin/tesseract ]; then
5    export TESSDATA_PREFIX=/usr/local/share/tessdata/
6fi
7(略)

利用可能な言語の確認

Bash
1$ tesseract --list-langs
2List of available languages (4):
3eng
4equ
5jpn
6osd

コマンドラインでテスト実行。

Bash
1$ tesseract tesseract.png output -l jpn
2(stderrにたくさんメッセージが出るが問題ないようだ)
3$ cat output.txt
4d0g Cat
5
6犬 猫
7
8今日の天気は晴れです。

引き続きPythonコードでの動作については
pythonでバージョンが違う場合モジュールの実行方法
に記載しています。

投稿2018/07/10 07:57

8524ba23

総合スコア38352

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問