pyocrを使った文字領域の保存

回答率: 85.48%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.48%

トップ Tesseractに関する質問

Q&A

解決済

1回答

1223閲覧

pyocrを使った文字領域の保存

総合スコア4

0グッド

0クリップ

投稿2019/08/17 19:03

0

0

前提・実現したいこと

pyocrをtesseractから呼び出し、画像の文字部分を別画像として保存したい。

発生している問題

公式ドキュメント(https://gitlab.gnome.org/World/OpenPaperwork/pyocr)で確認しましたが、よく分かりません。
文字検出後にtxtにするのではなく、文字検出部分を画像として保存するのは可能なのでしょうか？？

該当のソースコード

python
1from PIL import Image
2import sys
3
4import pyocr
5import pyocr.builders
6
7tools = pyocr.get_available_tools()
8if len(tools) == 0:
9    print("No OCR tool found")
10    sys.exit(1)
11# The tools are returned in the recommended order of usage
12tool = tools[0]
13print("Will use tool '%s'" % (tool.get_name()))
14# Ex: Will use tool 'libtesseract'
15
16langs = tool.get_available_languages()
17print("Available languages: %s" % ", ".join(langs))
18lang = langs[0]
19print("Will use lang '%s'" % (lang))
20# Ex: Will use lang 'fra'
21# Note that languages are NOT sorted in any way. Please refer
22# to the system locale settings for the default language
23# to use.
24
25txt = tool.image_to_string(
26    Image.open('images/sample02.jpg'),
27    lang="jpn",
28    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
29)
30print( txt )
31# txt is a Python string

参考にしたもの

・pythonでOCR
・pyocr公式ドキュメント

補足情報（FW/ツールのバージョンなど）

python3.6.5
pyocr0.7.2

行動規範の内容に同意します

回答1件

0

ベストアンサー

WordBoxBuilder を使うとできるっぽいですね。

Pythonで日本語OCRを行うときのメモ

投稿2019/08/18 00:08

mokemokechicken

総合スコア948

mokemokechicken

2019/08/18 00:10

蛇足かもしれませんが、 WordBoxBuilderを使うと、文字領域の四角形がとれるので、その後切り取れば良い、ということです。

2019/08/18 03:02

ありがとうございます！実は初めての質問で、ずっと分からなくて困っていましたが早く聞いておけば良かったです。。教えて頂きありがとうございました！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Tesseractに関する質問

pyocrを使った文字領域の保存

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【サポート業務のお知らせ】ゴールデンウィーク休業につき下記の日程で、お問い合わせ等のサポート業務をお休みいたします。 2024/04/27(土)~2024/04/29(月) 2024/05/03(金)〜2024/05/06(月) なお期間中もサポートへのお問い合わせは受け付けております。

【重要なお知らせ】いつもteratailをご利用いただきありがとうございます。現在、認証システムの修正により、一部のユーザーが強制的にログアウトされる可能性がございます。お手数おかけしますが、再度ログインを行なっていただきますよう宜しくお願いいたします。ご不便をおかけし申し訳ございません。

過去のお知らせを見る