画像内の任意のテキストをocrを利用して削除する

画像内にある（広島県）、（東京都）等をカッコも含めて画像から消去したいです。
カッコで括られた都道府県名をカッコも含めて消去したいです。

ocr処理をして文字とその座標をリストで取得できましたが、文が文字のレベルにまで分割されているので上手く扱えません。
ocr後のテキストから正規表現で削除対象を取ることはできますが、座標の情報が結びついていないので無理でした。
・削除したあとの空白部分を詰める必要はありません。

windows7
python3

python3
1from PIL import Image
2import pyocr
3import cv2
4import pyocr.builders
5import re
6import pytesseract
7
8pyocr.tesseract.TESSERACT_CMD = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
9img = Image.open('img.png')
10tool = pyocr.get_available_tools()
11tool = tool[0] 
12tool.get_name()
13results = tool.image_to_string(
14     img,
15     lang='jpn',
16     #builder=pyocr.builders.WordBoxBuilder(tesseract_layout=6)
17     builder=pyocr.builders.TextBuilder(tesseract_layout=3)
18)
19
20results = results.replace('"', '\"')
21a = "(.+?県.*)"
22b = re.findall(a, results)
23 #この部分はテキストから正規表現を用いて対象を抽出しています。

退会済みユーザー

2021/05/23 04:45 編集

> ocr処理をして文字とその座標をリストで取得できましたが、文が語のレベルにまで分割されているので上手く扱えません。文字のリストと座標のリスト、インデックスが対応するようなリストに分けて、 for i in range(文字のリスト): if (文字のリスト[i] == "(") and (文字のリスト[i+1] == "広") and ...: ...座標のリストを丸ごと消す処理というような感じでいけませんか？

k6y

2021/06/07 13:47

もう少し具体的なコードの内容はどのような感じになりますでしょうか。 ”インデックスが対応するようなリスト”の部分がよく分かりません。

退会済みユーザー

2021/06/10 22:06

文字のリスト: OCRで読み取った文字列そのものを一文字単位でリストに入れたもの座標のリスト: OCRで読み取った文字列の、文字ごとの座標リストインデックスが対応するようなリスト -->文字のリストと座標のリストとがインデックス"i"によって紐づけられて連結している状態を指した言葉でした。ですので「これらのリストがインデックスiで紐づけられるようにリストを生成して」として理解してください。元の日本語が間違っていますね、変な書き方をしてごめんなさい。