画像内にある(広島県)、(東京都)等をカッコも含めて画像から消去したいです。
カッコで括られた都道府県名をカッコも含めて消去したいです。
ocr処理をして文字とその座標をリストで取得できましたが、文が文字のレベルにまで分割されているので上手く扱えません。
ocr後のテキストから正規表現で削除対象を取ることはできますが、座標の情報が結びついていないので無理でした。
・削除したあとの空白部分を詰める必要はありません。
windows7
python3
python3
1from PIL import Image 2import pyocr 3import cv2 4import pyocr.builders 5import re 6import pytesseract 7 8pyocr.tesseract.TESSERACT_CMD = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 9img = Image.open('img.png') 10tool = pyocr.get_available_tools() 11tool = tool[0] 12tool.get_name() 13results = tool.image_to_string( 14 img, 15 lang='jpn', 16 #builder=pyocr.builders.WordBoxBuilder(tesseract_layout=6) 17 builder=pyocr.builders.TextBuilder(tesseract_layout=3) 18) 19 20results = results.replace('"', '\"') 21a = "(.+?県.*)" 22b = re.findall(a, results) 23 #この部分はテキストから正規表現を用いて対象を抽出しています。
回答1件
あなたの回答
tips
プレビュー