pyocr 　文字認識したい　tool でとまる・・・

素人です。

文字認識をしたく　ひとまずアップされているものを参考に
どうなるのか確認している最中です。

ただいろんなものをためしているのですが　おおよそ　tool　のところでつまります。

# ocr_card.py
import os
from PIL import Image
import pyocr
import pyocr.builders

# 1.インストール済みのTesseractのパスを通す
path_tesseract = "C:\Program Files (x86)\Tesseract-OCR"
if path_tesseract not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + path_tesseract

# 2.OCRエンジンの取得
tools = pyocr.get_available_tools()
tool = tools[0]

# 3.原稿画像の読み込み
img_org = Image.open("./card_image/zairyucard_omote.jpg")

# 4.ＯＣＲ実行
builder = pyocr.builders.TextBuilder()
result = tool.image_to_string(img_org, lang="jpn", builder=builder)

print(result)

に対し

IndexError
1<ipython-input-1-c7f89e66aee1> in <module>()
2     12 # 2.OCRエンジンの取得
3     13 tools = pyocr.get_available_tools()
4---> 14 tool = tools[0]
5     15 
6     16 # 3.原稿画像の読み込み
7
8IndexError: list index out of range

となります。

最終的に
https://teratail.com/questions/200725
にたどり着けたのですが
ベストアンサーの

↓を試してみてください。
pyocr.tesseract.TESSERACT_CMD = r'<full_path_to_your_tesseract_executable>'

私の環境はMacですが、同じ問題に遭遇してこれで解決しました。
参考: https://stackoverflow.com/questions/49162994/pyocr-get-availables-tools-returns-an-empty-list-can-access-tesseract-from

もイマイチ理解できておらず悲しみに包まれております。

何が原因でしょうか？
用途は　会社にくる古風なファックスを　データ化するためです。

行動規範の内容に同意します

回答1件

ベストアンサー

一つお伺いしますが
path_tesseract = "C:\Program Files (x86)\Tesseract-OCR"
と記述しておりますが、実際にtesseractはProgram Files (x86)フォルダの中に配置していますか？

またもう一点、
'<full_path_to_your_tesseract_executable>'
こちらはあくまでサンプルコードです。
質問者さんの「tesseractのパスを入力してください」というものとなっています。
クォーテーションの中にパスを記述して試してみてください。

投稿2020/03/27 08:13

nto

総合スコア1438

takumataukma

2020/03/27 09:29

ありがとうございます！！！無事アドバイス頂いた >path_tesseract = "C:\Program Files (x86)\Tesseract-OCR" >と記述しておりますが、実際にtesseractはProgram Files (x86)フォルダの中に配置していますか？の箇所で　パスを正しい場所に修正したら　いけました！！！！！！本当にありがとうございます！助かりました！！！！

行動規範の内容に同意します