前提・実現したいこと
https://punhundon-lifeshift.com/tesseract_ocr
pythonのtesseract-OCRで画像の文字認識
現在エラーコードが出ているのでちゃんと動くようにしたい
発生している問題・エラーメッセージ
File "a.py",line 28
import re
SyntaxError:invalid syntax
該当のソースコード
from PIL import Image
import sys
import pyocr
import pyocr.builders
tools = pyocr.get_available_tools()
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
tool = tools[0]
print("Will use tool '%s'" % (tool.get_name()))
langs = tool.get_available_languages()
print("Available languages: %s" % ", ".join(langs))
lang = langs
print("Will use lang '%s'" % (lang))
input_file = input('ファイルのパスを入力してください。')
txt = tool.image_to_string(
Image.open(input_file),
lang=lang,
builder=pyocr.builders.TextBuilder(tesseract_layout=3)
import re
txt = re.sub('([あ-んア-ン一-龥ー])\s+((?=[あ-んア-ン一-龥ー]))',
r'\1\2', txt)
print( txt )
試したこと
pyocrとpillowはpip install済み
環境変数は2つともちゃんと通しました
ソースコードのtxt以下を消すと動く
補足情報(FW/ツールのバージョンなど)
python3.8
回答2件
あなたの回答
tips
プレビュー