実現したいこと
Jupyterにてpyocr + tesseractを使ったOCRの環境構築
前提
・Anaconda Navigator(以下AN)の仮想環境でJupyter上でのトラブル
・Pillow・opencv-python・numpy等、必要なライブラリは導入出来たと考えております。
・当方プログラミング初心者です。可能な限り伝えられる情報を記載したつもりなのですが
状況を全て伝えきれていない場合ご指摘いただければ幸いです。
参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/
発生している問題・エラーメッセージ
ModuleNotFoundError Traceback (most recent call last) Cell In[17], line 41 37 data_list 39 return data_list ---> 41 from tesseract_ocr import render_doc_text 43 if __name__ == '__main__': 44 # OCR検知 45 data_list = render_doc_text('sample.png') ModuleNotFoundError: No module named 'tesseract_ocr'
該当のソースコード
Python
1from PIL import Image 2import pyocr 3import pyocr.builders 4import cv2 5import numpy as np 6 7def render_doc_text(file_path): 8 9 # ツール取得 10 pyocr.tesseract.TESSERACT_CMD = 'C:/Users/***/AppData/Local/Programs/Tesseract-OCR/tesseract.exe' 11 tools = pyocr.get_available_tools() 12 tool = tools[0] 13 14 # 画像取得 15 img = cv2.imread(file_path, 0) 16 # 必要に応じて画像処理 線を消す 17 ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY) 18 # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5) 19 img = cv2.bitwise_not(img) 20 label = cv2.connectedComponentsWithStats(img) 21 data = np.delete(label[2], 0, 0) 22 new_image = np.zeros((img.shape[0], img.shape[1]))+255 23 for i in range(label[0]-1): 24 if 0 < data[i][4] < 1000: 25 new_image = np.where(label[1] == i+1, 0, new_image) 26 27 # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY) 28 cv2.imwrite('sample_edited.png', new_image) 29 img = Image.fromarray(new_image) 30 31 # OCR 32 builder = pyocr.builders.TextBuilder() 33 result = tool.image_to_string(img, lang="jpn", builder=builder) 34 35 # 結果から空白文字削除 36 data_list = [text for text in result.split('\n') if text.strip()] 37 data_list 38 39 return data_list 40 41from tesseract_ocr import render_doc_text 42 43if __name__ == '__main__': 44 # OCR検知 45 data_list = render_doc_text('sample.png') 46 print(','.join(data_list))
試したこと
■ Anaconda Prompt上で コマンド「 conda install -c conda-forge tesseract 」を試しました。
┗ tesseract の動作確認(current version: 23.7.4) コマンド「 !tesseract --list-langs 」
→ 動作はしているように思えます。
List of available languages (2):
eng
osd
■ANの仮想環境にパッケージとして「tesseract」「pytesseract」をインストールしました。
「tesseract-4.1.1-h8c00e3c_4」というフォルダの下位フォルダに「tessdata」があります。
┗ フォルダ名の「tesseract_ocr」は見つけることが出来ませんでした。
┗ フォルダ名をtesseract_ocrに書き換えて環境変数への登録は不安になり試せておりません。
■ 公式HPよりインストーラーをDL、Windowsに直接tesseractのインストールを試しました。
┗ tesseractORCの下位フォルダにtessdataは作成されていました。
Windowsの環境変数の登録等々調べられた限りでは試したのですが
動作させることが出来ず質問させていただいた次第です。
質問事項
■ Anaconda Prompt上で コマンド「 conda install -c conda-forge tesseract 」にてインストールしたものを
見つけられず環境変数にパスが登録出来てない事が原因でしょうか?
■ 非常に初歩的な質問で恐縮なのですが、読み込む画像データはどのディレクトリに配置すればよいでしょうか。
┗ jupterの仮想環境のあるフォルダや「ここかな?」という場所には色々おいて試したのですが、コレといった答えに検索でたどり着くことが出来ませんでした。
補足情報(FW/ツールのバージョンなど)
JupyterLab 4.0.8
返信コメント用の画像
回答1件
あなたの回答
tips
プレビュー