質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.42%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

383閲覧

Jupyterにてpyocr + tesseractを使ったOCRの環境構築

NK.P0009

総合スコア12

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/12/14 08:00

編集2023/12/15 05:02

実現したいこと

Jupyterにてpyocr + tesseractを使ったOCRの環境構築

前提

・Anaconda Navigator(以下AN)の仮想環境でJupyter上でのトラブル
・Pillow・opencv-python・numpy等、必要なライブラリは導入出来たと考えております。
・当方プログラミング初心者です。可能な限り伝えられる情報を記載したつもりなのですが
状況を全て伝えきれていない場合ご指摘いただければ幸いです。

参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/

発生している問題・エラーメッセージ

ModuleNotFoundError Traceback (most recent call last) Cell In[17], line 41 37 data_list 39 return data_list ---> 41 from tesseract_ocr import render_doc_text 43 if __name__ == '__main__': 44 # OCR検知 45 data_list = render_doc_text('sample.png') ModuleNotFoundError: No module named 'tesseract_ocr'

該当のソースコード

Python

1from PIL import Image 2import pyocr 3import pyocr.builders 4import cv2 5import numpy as np 6 7def render_doc_text(file_path): 8 9 # ツール取得 10 pyocr.tesseract.TESSERACT_CMD = 'C:/Users/***/AppData/Local/Programs/Tesseract-OCR/tesseract.exe' 11 tools = pyocr.get_available_tools() 12 tool = tools[0] 13 14 # 画像取得 15 img = cv2.imread(file_path, 0) 16 # 必要に応じて画像処理 線を消す 17 ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY) 18 # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5) 19 img = cv2.bitwise_not(img) 20 label = cv2.connectedComponentsWithStats(img) 21 data = np.delete(label[2], 0, 0) 22 new_image = np.zeros((img.shape[0], img.shape[1]))+255 23 for i in range(label[0]-1): 24 if 0 < data[i][4] < 1000: 25 new_image = np.where(label[1] == i+1, 0, new_image) 26 27 # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY) 28 cv2.imwrite('sample_edited.png', new_image) 29 img = Image.fromarray(new_image) 30 31 # OCR 32 builder = pyocr.builders.TextBuilder() 33 result = tool.image_to_string(img, lang="jpn", builder=builder) 34 35 # 結果から空白文字削除 36 data_list = [text for text in result.split('\n') if text.strip()] 37 data_list 38 39 return data_list 40 41from tesseract_ocr import render_doc_text 42 43if __name__ == '__main__': 44 # OCR検知 45 data_list = render_doc_text('sample.png') 46 print(','.join(data_list))

試したこと

■ Anaconda Prompt上で コマンド「 conda install -c conda-forge tesseract 」を試しました。
┗ tesseract の動作確認(current version: 23.7.4) コマンド「 !tesseract --list-langs 」

→ 動作はしているように思えます。
List of available languages (2):
eng
osd

■ANの仮想環境にパッケージとして「tesseract」「pytesseract」をインストールしました。
「tesseract-4.1.1-h8c00e3c_4」というフォルダの下位フォルダに「tessdata」があります。
┗ フォルダ名の「tesseract_ocr」は見つけることが出来ませんでした。
┗ フォルダ名をtesseract_ocrに書き換えて環境変数への登録は不安になり試せておりません。

■ 公式HPよりインストーラーをDL、Windowsに直接tesseractのインストールを試しました。
┗ tesseractORCの下位フォルダにtessdataは作成されていました。

Windowsの環境変数の登録等々調べられた限りでは試したのですが
動作させることが出来ず質問させていただいた次第です。

質問事項

■ Anaconda Prompt上で コマンド「 conda install -c conda-forge tesseract 」にてインストールしたものを
見つけられず環境変数にパスが登録出来てない事が原因でしょうか?

■ 非常に初歩的な質問で恐縮なのですが、読み込む画像データはどのディレクトリに配置すればよいでしょうか。
┗ jupterの仮想環境のあるフォルダや「ここかな?」という場所には色々おいて試したのですが、コレといった答えに検索でたどり着くことが出来ませんでした。

補足情報(FW/ツールのバージョンなど)

JupyterLab 4.0.8

返信コメント用の画像

イメージ説明

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

NK.P0009

2023/12/15 05:06

ご回答ありがとうございます。 Jupyterにて「Jupyter」というフォルダを作成して動作検証中なのですが、カレントディレクトリはこの下位フォルダという認識でよろしいのでしょうか? その下位にファイルがあるのですがうまく動作しません。
jbpb0

2023/12/15 06:36 編集

> カレントディレクトリはこの下位フォルダという認識でよろしいのでしょうか? jupyterで下記を実行して、カレントディレクトリがどこかを確認してください import os print(os.getcwd())
jbpb0

2023/12/15 06:38 編集

質問のコードを良く見たら、 https://github.com/hituji1012/tesseract-ocr/blob/master/tesseract_ocr.py の内容が書かれてますね それなら、 from tesseract_ocr import render_doc_text は不要です 上記を削除したら、「tesseract_ocr.py」がカレントディレクトリに無くても、 > ModuleNotFoundError: No module named 'tesseract_ocr' は出なくなるはず
NK.P0009

2023/12/15 07:19

う、動きました! 丁寧なご解説ありがとうございます。 数日間エラーメッセージに悩まされていたのをおかげ様で解決出来ました。 改めて感謝申し上げます。
NK.P0009

2023/12/15 07:27

スクリプトに関する質問ではなく、サイトの初歩的な使い方で恐縮なのですが回答を記載する際に 「回答依頼をできるユーザーが見つかりませんでした」 とあるのですが、これはjbpb0様に別途回答を依頼する形になるのでしょうか? jbpb0様のポイント?にもならず、ただお手数をかけるだけでしたら自身で 自己解決欄に記載させていただきます。
NK.P0009

2023/12/15 07:48

jbpb0様 コメントありがとうございます。 ご指摘の文言 from tesseract_ocr import render_doc_text の削除を試したところ問題が解決しました! ベストアンサーに選びたいので同じ内容を回答欄に投稿いただけますでしょうか?
guest

回答1

0

自己解決

jbpb0様の助言により解決に至りました。
ありがとうございました。

主な解決方法は下記文言を削除する事でした。

 from tesseract_ocr import render_doc_text

投稿2023/12/18 07:59

NK.P0009

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.42%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問