実現したいこと
JupyterLabにてpyocr + tesseractを使ったOCR
前提
参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/
発生している問題・エラーメッセージ
該当のソースコード
Python
1from PIL import Image 2import pyocr 3import pyocr.builders 4import cv2 5import numpy as np 6 7def render_doc_text(file_path): 8 9 # ツール取得 10 pyocr.tesseract.TESSERACT_CMD = 'C:/Users/自身の環境/AppData/Local/Programs/Tesseract-OCR/tesseract.exe' 11 tools = pyocr.get_available_tools() 12 tool = tools[0] 13 14 # 画像取得 15 img = cv2.imread(file_path, 0) 16 # 必要に応じて画像処理 線を消す 17 ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY) 18 # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5) 19 img = cv2.bitwise_not(img) 20 label = cv2.connectedComponentsWithStats(img) 21 data = np.delete(label[2], 0, 0) 22 new_image = np.zeros((img.shape[0], img.shape[1]))+255 23 for i in range(label[0]-1): 24 if 0 < data[i][4] < 1000: 25 new_image = np.where(label[1] == i+1, 0, new_image) 26 27 # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY) 28 cv2.imwrite('sample_edited.png', new_image) 29 img = Image.fromarray(new_image) 30 31 # OCR 32 builder = pyocr.builders.TextBuilder() 33 result = tool.image_to_string(img, lang="jpn", builder=builder) 34 35 # 結果から空白文字削除 36 data_list = [text for text in result.split('\n') if text.strip()] 37 data_list 38 39 return data_list
試したこと
モジュール不足やpathの設定などエラーの度に都度対応して
エラーを吐かない段階まで到達したのですが、エラーを吐かないにも関わらず動作せず手詰まり状態です。
補足情報(FW/ツールのバージョンなど)
JupyterLab 4.0.8
回答1件
あなたの回答
tips
プレビュー