質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

JupyterLab

JupyterLabは、Jupyter notebookの後継の対話型開発環境(IDE)です。データの可視化がインタラクティブで、プラグイン作成により新しいコンポーネントの追加および既存のコンポーネントも統合可能。サーバに閉じているため、データ分析に向いています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

233閲覧

Anaconda Navigatorにて構築した仮想環境でJupyterLabでエラーを吐かないエラー

NK.P0009

総合スコア6

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

JupyterLab

JupyterLabは、Jupyter notebookの後継の対話型開発環境(IDE)です。データの可視化がインタラクティブで、プラグイン作成により新しいコンポーネントの追加および既存のコンポーネントも統合可能。サーバに閉じているため、データ分析に向いています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/12/12 08:29

実現したいこと

JupyterLabにてpyocr + tesseractを使ったOCR

前提

参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/

発生している問題・エラーメッセージ

Runを押しても特に何も表示されない状態です。
イメージ説明

該当のソースコード

Python

1from PIL import Image 2import pyocr 3import pyocr.builders 4import cv2 5import numpy as np 6 7def render_doc_text(file_path): 8 9 # ツール取得 10 pyocr.tesseract.TESSERACT_CMD = 'C:/Users/自身の環境/AppData/Local/Programs/Tesseract-OCR/tesseract.exe' 11 tools = pyocr.get_available_tools() 12 tool = tools[0] 13 14 # 画像取得 15 img = cv2.imread(file_path, 0) 16 # 必要に応じて画像処理 線を消す 17 ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY) 18 # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5) 19 img = cv2.bitwise_not(img) 20 label = cv2.connectedComponentsWithStats(img) 21 data = np.delete(label[2], 0, 0) 22 new_image = np.zeros((img.shape[0], img.shape[1]))+255 23 for i in range(label[0]-1): 24 if 0 < data[i][4] < 1000: 25 new_image = np.where(label[1] == i+1, 0, new_image) 26 27 # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY) 28 cv2.imwrite('sample_edited.png', new_image) 29 img = Image.fromarray(new_image) 30 31 # OCR 32 builder = pyocr.builders.TextBuilder() 33 result = tool.image_to_string(img, lang="jpn", builder=builder) 34 35 # 結果から空白文字削除 36 data_list = [text for text in result.split('\n') if text.strip()] 37 data_list 38 39 return data_list

試したこと

モジュール不足やpathの設定などエラーの度に都度対応して
エラーを吐かない段階まで到達したのですが、エラーを吐かないにも関わらず動作せず手詰まり状態です。

補足情報(FW/ツールのバージョンなど)

JupyterLab 4.0.8

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2023/12/12 09:01 編集

掲載されたコードを見る限りでは関数を定義しただけなので実行しても何も起きないのが正常かと思います。この関数を実行(呼び出す)すれば良いのではないでしょうか?
NK.P0009

2023/12/13 06:32

ご回答ありがとうございます。 関数を定義しているのみで何も起きないとの事、初歩的な事を理解していないにも関わらず 丁重なご説明感謝致します。 次の工程でまた別の問題が発生しましたが、完全に息詰まるまでまた調べなおしたいと思います。 ありがとうございました。
guest

回答1

0

ベストアンサー

質問のコードはモジュールを読み込んで関数を定義しているだけで、何もしていないので、実行しても何も起きません。

リンク先の記事の「最後に作った関数を実行します。」で説明されているコードを実行すればよさそうですが、記事にソースコードのリンクがあるので、念の為それをダウンロードして自分のコードと比べてみるといいでしょう。

投稿2023/12/12 11:20

TakaiY

総合スコア12774

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

NK.P0009

2023/12/13 06:31

ご回答ありがとうございます。 関数を定義しているのみで何も起きないとの事、初歩的な事を理解していないにも関わらず 丁重なご説明感謝致します。 次の工程でまた別の問題が発生しましたが、完全に息詰まるまでまた調べなおしたいと思います。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問