質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.53%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

665閲覧

Python tesseractで翻訳ができない

Rance1119

総合スコア2

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2023/04/01 15:30

編集2023/04/07 14:14

プログラミング勉強中の初心者です。
anaconda環境のPycharmにてconda経由でPytesseract,tesseract,pyocrをインストールし、
動作確認のため下記のコードを実行したのですが

Will use tool 'Tesseract (sh)'
Available languages: Traceback (most recent call last):
File "C:\Users.....\PycharmProjects\PysimpleGUI\XXXX.py", line 18, in <module>
lang = langs[0]
IndexError: list index out of range

と表記され実行できません
色々調べましたがごちゃごちゃになってわからないので解決策を教えてほしいです。

python

1from PIL import Image 2import sys 3 4import pyocr 5import pyocr.builders 6 7tools = pyocr.get_available_tools() 8if len(tools) == 0: 9 print("No OCR tool found") 10 sys.exit(1) 11tool = tools[0] 12print("Will use tool '%s'" % (tool.get_name())) 13 14 15langs = tool.get_available_languages() 16print("Available languages: %s" % ", ".join(langs)) 17lang = langs[0] 18print("Will use lang '%s'" % (lang))

試したこと

・anaconda promptにてconda listにてPytesseract,tesseract,pyocrをインストールされているか、バージョンが最新かの確認
→すべてインストール済、最新版(いずれもconda install -c conda-forge~ でインストール)
・anaconda環境のプロジェクトか確認→そう
・anaconda promptにてtesseract versionからtesseract --list-langsから言語を確認
→ jpnとjpn_vertの両方を確認

・試しに日本語がはっきり書かれている画像をカレントディレクトリに置き下記のコードでテキストを読み取らせる

python

1from PIL import Image 2import sys 3 4import pyocr 5import pyocr.builders 6pyocr.tesseract.TESSERACT_CMD = r'<full_path_to_your_tesseract.exe>' 7(pyocr.tesseract.TESSERACT_CMD = r'<full_path_to_your_pytesseract.exe>'としても同じ結果) 8tools = pyocr.get_available_tools() 9if len(tools) == 0: 10 print("No OCR tool found") 11 sys.exit(1) 12tool = tools[0] 13print("Will use tool '%s'" % (tool.get_name())) 14 15txt = tool.image_to_string(Image.open('test.png'),lang="jpn",builder=pyocr.builders.TextBuilder(tesseract_layout=6)) 16print(txt)

環境変数などの設定は行っていません。
実行の際TESSERACT_CMDの行抜きですと下記のようにエラーが出ました

python

1C:\Users\ユーザ名\anaconda3\python.exe C:\Users\fユーザ名\PycharmProjects\PysimpleGUI\....\....\XXX.py 2Will use tool 'Tesseract (sh)' 3Traceback (most recent call last): 4 File "C:\Users\ユーザ名\PycharmProjects\PysimpleGUI\....\....\XXX.py", line 15, in <module> 5 txt = tool.image_to_string(Image.open('test.png'),lang="jpn",builder=pyocr.builders.TextBuilder(tesseract_layout=6)) 6 File "C:\Users\ユーザ名\anaconda3\lib\site-packages\pyocr\tesseract.py", line 372, in image_to_string 7 raise TesseractError(status, errors) 8pyocr.error.TesseractError: (1, b'Error opening data file ./jpn.traineddata\r\nPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.\r\nFailed loading language \'jpn\'\r\nTesseract couldn\'t load any languages!\r\nCould not initialize tesseract.\r\n') 9 10プロセスは終了コード 1 で終了しました 11

行を入れた際はNo OCR tool found と出ます。
未使用の import ステートメント 'import pyocr'
'imported module pyocr' の参照 'tesseract' が見つかりませんと表示される。

また、r'<full_path_to_your_tesseract.exe>'
の箇所はきちんとtesseract.exeの絶対パスを指定しています。
(anaconda prompt にて where tesseractで表示された絶対パスが同じであることを確認済)

anaconda promptにて、
set TESSDATA_PREFIX=C:\Users\ユーザー名\anaconda3\pkgs\tesseract-5.3.0-...........\share\tessdata
を実行後、再度コードを実行。
→試してうまくいかないので追記。

環境

・PyCharm Community Edition
・anaconda3
・windows10

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jbpb0

2023/04/01 22:38

pythonのコードの一番最初の行のすぐ上に ```python だけの行を追加してください また、pythonのコードの一番最後の行のすぐ下に ``` だけの行を追加してください または、 https://teratail.storage.googleapis.com/uploads/contributed_images/56957fe805d9d7befa7dba6a98676d2b.gif を見て、そのようにしてみてください 現状、コードがとても読み辛いです 質問にコードを載せる際に上記をやってくれたら、他人がコードを読みやすくなり、コードの実行による現象確認もやりやすくなるので、回答されやすくなります
jbpb0

2023/04/01 22:55 編集

質問の(「試しに日本語が...」以下の)二つ目のコードの > pyocr.tesseract.TESSERACT_CMD = r'<full_path_to_your_tesseract.exe>' の 「<full_path_to_your_tesseract.exe>」 の部分は、「tesseract.exe」の実際の絶対パスに置き換えてますでしょうか? また、質問の二つ目のコードで、一つ目のコードのように 「pyocr.tesseract.TESSERACT_CMD =...」 の行が無い場合は、どうなりますでしょうか?
jbpb0

2023/04/03 19:03

二つ目のコードで、 > TESSERACT_CMDの行抜きでも同様のエラーが出ました 「同様のエラー」とは > →No OCR tool found と出る。 と同じでしょうか? 一つ目のコードでは > Will use tool 'Tesseract (sh)' なのに、二つ目のコードでは > →No OCR tool found と出る。 となる原因が、 「pyocr.tesseract.TESSERACT_CMD =...」 の行が有るからではないか? と思ったのですが
jbpb0

2023/04/03 19:10 編集

> anaconda promptにてtesseract versionからtesseract --list-langsから言語を確認 → jpnとjpn_vertの両方を確認 > r'<full_path_to_your_tesseract.exe>' の箇所はきちんとtesseract.exeの絶対パスを指定しています。 anacondaプロンプトで where tesseract を実行した結果表示の絶対パスと、 「<full_path_to_your_tesseract.exe>」 の実際は、同じでしょうか?
Rance1119

2023/04/04 15:05

ご回答ありがとうございます。 ① 二つ目のコードで、TESSERACT_CMDの行抜きでも同様のエラーが出ました 「同様のエラー」とは →No OCR tool found と出る。 と同じでしょうか? との事ですが別のエラーが出ていました、書き直しました。 ② where tesseract を実行した結果表示の絶対パスと、 「<full_path_to_your_tesseract.exe>」 の実際は、同じでしょうか? 同じです、確認済みです。
guest

回答1

0

自己解決

tessdateのファイルを….libray/binに入れたら動作しました。

投稿2023/04/26 03:43

Rance1119

総合スコア2

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.53%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

同じタグがついた質問を見る

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。