Jupyterにてpyocr + tesseractを使ったOCRの環境構築

実現したいこと

前提

・Anaconda Navigator(以下AN)の仮想環境でJupyter上でのトラブル
・Pillow・opencv-python・numpy等、必要なライブラリは導入出来たと考えております。
・当方プログラミング初心者です。可能な限り伝えられる情報を記載したつもりなのですが
状況を全て伝えきれていない場合ご指摘いただければ幸いです。

参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/

発生している問題・エラーメッセージ

ModuleNotFoundError                       Traceback (most recent call last)
Cell In[17], line 41
     37     data_list
     39     return data_list
---> 41 from tesseract_ocr import render_doc_text
     43 if __name__ == '__main__':
     44     # OCR検知
     45     data_list = render_doc_text('sample.png')

ModuleNotFoundError: No module named 'tesseract_ocr'

該当のソースコード

Python
1from PIL import Image
2import pyocr
3import pyocr.builders
4import cv2
5import numpy as np
6
7def render_doc_text(file_path):
8
9    # ツール取得
10    pyocr.tesseract.TESSERACT_CMD = 'C:/Users/***/AppData/Local/Programs/Tesseract-OCR/tesseract.exe'
11    tools = pyocr.get_available_tools()
12    tool = tools[0]
13
14    # 画像取得
15    img = cv2.imread(file_path, 0)
16    # 必要に応じて画像処理 線を消す
17    ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY)
18    # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5)
19    img = cv2.bitwise_not(img)
20    label = cv2.connectedComponentsWithStats(img)
21    data = np.delete(label[2], 0, 0)
22    new_image = np.zeros((img.shape[0], img.shape[1]))+255
23    for i in range(label[0]-1):
24        if 0 < data[i][4] < 1000:
25            new_image = np.where(label[1] == i+1, 0, new_image)
26
27    # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY)
28    cv2.imwrite('sample_edited.png', new_image)
29    img = Image.fromarray(new_image)
30
31    # OCR
32    builder = pyocr.builders.TextBuilder()
33    result = tool.image_to_string(img, lang="jpn", builder=builder)
34
35    # 結果から空白文字削除
36    data_list = [text for text in result.split('\n') if text.strip()]
37    data_list
38
39    return data_list
40
41from tesseract_ocr import render_doc_text
42
43if __name__ == '__main__':
44    # OCR検知
45    data_list = render_doc_text('sample.png')
46    print(','.join(data_list))

試したこと

■ Anaconda Prompt上でコマンド「 conda install -c conda-forge tesseract 」を試しました。
┗ tesseract の動作確認(current version: 23.7.4)　コマンド「 !tesseract --list-langs 」

→ 動作はしているように思えます。
List of available languages (2):
eng
osd

■ANの仮想環境にパッケージとして「tesseract」「pytesseract」をインストールしました。
「tesseract-4.1.1-h8c00e3c_4」というフォルダの下位フォルダに「tessdata」があります。
┗ フォルダ名の「tesseract_ocr」は見つけることが出来ませんでした。
┗ フォルダ名をtesseract_ocrに書き換えて環境変数への登録は不安になり試せておりません。

■ 公式HPよりインストーラーをDL、Windowsに直接tesseractのインストールを試しました。
┗ tesseractORCの下位フォルダにtessdataは作成されていました。

Windowsの環境変数の登録等々調べられた限りでは試したのですが
動作させることが出来ず質問させていただいた次第です。

質問事項

■ Anaconda Prompt上でコマンド「 conda install -c conda-forge tesseract 」にてインストールしたものを
見つけられず環境変数にパスが登録出来てない事が原因でしょうか？

■ 非常に初歩的な質問で恐縮なのですが、読み込む画像データはどのディレクトリに配置すればよいでしょうか。
┗ jupterの仮想環境のあるフォルダや「ここかな？」という場所には色々おいて試したのですが、コレといった答えに検索でたどり着くことが出来ませんでした。

補足情報（FW/ツールのバージョンなど）

JupyterLab 4.0.8

返信コメント用の画像

jbpb0

2023/12/14 08:15

https://github.com/hituji1012/tesseract-ocr の「tesseract_ocr.py」をカレントディレクトリに置いたら、たぶん > ModuleNotFoundError: No module named 'tesseract_ocr' は出なくなると思います

meg_

2023/12/14 08:58

> 参考にしたURL > https://hituji-ws.com/code/python/tesseract-ocr/ 上記サイトには「from tesseract_ocr import render_doc_text」のコードは無いようですが、どこから来たのでしょうか？

jbpb0

2023/12/14 09:58 編集

meg_さん > https://hituji-ws.com/code/python/tesseract-ocr/ の「サンプルコード」をクリックした先 https://github.com/hituji1012/tesseract-ocr の「main.py」に有ります

NK.P0009

2023/12/15 05:06

ご回答ありがとうございます。 Jupyterにて「Jupyter」というフォルダを作成して動作検証中なのですが、カレントディレクトリはこの下位フォルダという認識でよろしいのでしょうか？その下位にファイルがあるのですがうまく動作しません。

jbpb0

2023/12/15 06:36 編集

> カレントディレクトリはこの下位フォルダという認識でよろしいのでしょうか？ jupyterで下記を実行して、カレントディレクトリがどこかを確認してください import os print(os.getcwd())

jbpb0

2023/12/15 06:38 編集

質問のコードを良く見たら、 https://github.com/hituji1012/tesseract-ocr/blob/master/tesseract_ocr.py の内容が書かれてますねそれなら、 from tesseract_ocr import render_doc_text は不要です上記を削除したら、「tesseract_ocr.py」がカレントディレクトリに無くても、 > ModuleNotFoundError: No module named 'tesseract_ocr' は出なくなるはず

NK.P0009

2023/12/15 07:19

う、動きました！丁寧なご解説ありがとうございます。数日間エラーメッセージに悩まされていたのをおかげ様で解決出来ました。改めて感謝申し上げます。

NK.P0009

2023/12/15 07:27

スクリプトに関する質問ではなく、サイトの初歩的な使い方で恐縮なのですが回答を記載する際に「回答依頼をできるユーザーが見つかりませんでした」とあるのですが、これはjbpb0様に別途回答を依頼する形になるのでしょうか？ jbpb0様のポイント？にもならず、ただお手数をかけるだけでしたら自身で自己解決欄に記載させていただきます。

NK.P0009

2023/12/15 07:48

jbpb0様コメントありがとうございます。ご指摘の文言 from tesseract_ocr import render_doc_text の削除を試したところ問題が解決しました！ベストアンサーに選びたいので同じ内容を回答欄に投稿いただけますでしょうか？