質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1254閲覧

pyocrにて長いエラーが出て検索のしようがない

Mercedes_Melvin

総合スコア1

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/12/01 05:32

編集2021/12/01 06:45

###pyocrにて長いエラーが出て検索のしようがない

pyocrを用いた簡単な文字認識コードを書いているのですが、
エラー文が長く検索の仕方も難しいため
非常に解決にたどり着けず困っています。

実行結果

<module 'pyocr.tesseract' from 'C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pyocr\tesseract.py'> Warning (from warnings module): File "C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\PIL\Image.py", line 975 warnings.warn( UserWarning: Palette images with Transparency expressed in bytes should be converted to RGBA images Traceback (most recent call last): File "C:\Users\プライベート\Desktop\python\test.py", line 14, in <module> txt = tool.image_to_string( File "C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pyocr\tesseract.py", line 369, in image_to_string raise TesseractError(status, errors) pyocr.error.TesseractError: (1, b'Error opening data file C:\Program Files\Tesseract-OCR\tessdata/jpn.traineddata\r\nPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.\r\nFailed loading language \'jpn\'\r\nTesseract couldn\'t load any languages!\r\nCould not initialize tesseract.\r\n') >>>

該当のソースコード

python

1from PIL import Image 2import sys 3import pyocr 4import pyocr.builders 5 6 7pyocr.tesseract.TESSERACT_CMD = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" 8 9tools = pyocr.get_available_tools() 10tool = tools[0] 11 12print(tool) 13picture = Image.open("test1.png") 14txt = tool.image_to_string( 15 picture, 16 lang="jpn", 17 builder = pyocr.builders.TextBuilder(tesseract_layout = 3) 18) 19print(txt)

###追記
環境変数「TESSDATA_PREFIX」を設定しようと試みましたが
改善の余地は見られませんでした。
以下ソースコード

python

1from PIL import Image 2import sys 3import os 4import pyocr 5import pyocr.builders 6 7 8 9TESSERACT_PATH = 'C:\Program Files (x86)\Tesseract-OCR' 10TESSDATA_PATH = 'C:\Program Files (x86)\Tesseract-OCR\tessdata' 11 12os.environ["PATH"] += os.pathsep +TESSERACT_PATH 13os.environ["TESSDATA_PREFIX"] = TESSDATA_PATH 14 15tools = pyocr.get_available_tools() 16if len(tools) == 0: 17 print("p") 18tool = tools[0] 19 20print(tool) 21picture = Image.open("test1.png") 22txt = tool.image_to_string( 23 picture, 24 lang="jpn", 25 builder = pyocr.builders.TextBuilder(tesseract_layout = 3) 26) 27print(txt) 28

以下エラー内容

<module 'pyocr.tesseract' from 'C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pyocr\tesseract.py'> Warning (from warnings module): File "C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\PIL\Image.py", line 975 warnings.warn( UserWarning: Palette images with Transparency expressed in bytes should be converted to RGBA images Traceback (most recent call last): File "C:\Users\プライベート\Desktop\python\test.py", line 23, in <module> txt = tool.image_to_string( File "C:\Users\プライベート\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\pyocr\tesseract.py", line 369, in image_to_string raise TesseractError(status, errors) pyocr.error.TesseractError: (1, b'Error opening data file C:\Program Files (x86)\Tesseract-OCR\tessdata/jpn.traineddata\r\nPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.\r\nFailed loading language \'jpn\'\r\nTesseract couldn\'t load any languages!\r\nCould not initialize tesseract.\r\n')

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2021/12/01 05:56

> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. 環境変数「TESSDATA_PREFIX」を設定しろ、と言われてます 参考 https://blog.14nigo.net/2018/03/pyocr.html
jbpb0

2021/12/01 06:56

> 環境変数「TESSDATA_PREFIX」を設定しようと試みましたが 改善の余地は見られませんでした。 https://blog.14nigo.net/2018/03/pyocr.html のコードと、パス区切り文字が違います
guest

回答1

0

自己解決

下記URLを参考にしたらなんとかエラーがなくなりました。
png画像を読み込もうとするとエラーが出るのですが、jpg画像ならエラーなく文字認識が実行できるみたいなので解決とします。
jbpb0様、アドバイスありがとうございました。
https://blog.14nigo.net/2018/03/pyocr.html

以下ソースコード

python

1from PIL import Image 2import sys 3import os 4import pyocr 5import pyocr.builders 6 7 8 9TESSERACT_PATH = 'C://Program Files (x86)//Tesseract-OCR' 10TESSDATA_PATH = 'C://Program Files (x86)//Tesseract-OCR//tessdata' 11 12os.environ["PATH"] += os.pathsep + TESSERACT_PATH 13os.environ["TESSDATA_PREFIX"] = TESSDATA_PATH 14 15tools = pyocr.get_available_tools() 16if len(tools) == 0: 17 print("p") 18tool = tools[0] 19 20print(tool) 21picture = Image.open("f.jpg") 22txt = tool.image_to_string( 23 picture, 24 lang="jpn", 25 builder = pyocr.builders.TextBuilder(tesseract_layout = 3) 26) 27print(txt) 28

投稿2021/12/02 02:35

Mercedes_Melvin

総合スコア1

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問