質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

Q&A

解決済

1回答

3778閲覧

tesseractの学習でread_params_file: Can't open lstm.train

sarasa_38765

総合スコア34

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

0グッド

0クリップ

投稿2020/09/03 02:22

編集2020/09/03 06:03

#以下の記事を参考にtesseractで手書きの学習を行っています

txt

1https://minimashia.net/create-tesseract-traineddata/

#なんとか環境構築までできたのですが、学習のコマンドでshared library version mismatch (was 4.1.1, expected 4.1.1-rc2-20-g01fb)が出てしまいます。tesseractのバージョンは4.1.1なのでそちらを使うように指定したいのですが、方法がわかりません。

txt

1(django_dog) [root@localhost ocrd-train]# nohup time -f "Run time = %E\n" make training MODEL_NAME=mnist >> train.log 2>&1 & 2[1] 50426 3(django_dog) [root@localhost ocrd-train]# tail -f train.log 4Run time = 0:00.43 5 6nohup: 入力を無視します 7unicharset_extractor --output_unicharset "data/mnist/unicharset" --norm_mode 2 "data/mnist/all-gt" 8ERROR: shared library version mismatch (was 4.1.1, expected 4.1.1-rc2-20-g01fb 9Did you use a wrong shared tesseract library? 10make: *** [Makefile:186: data/mnist/unicharset] エラー 1 11Command exited with non-zero status 2 12Run time = 0:00.45

#yumで以前に入れたtesseractの方を削除したところ、上記エラーは出なくなりましたが以下のエラーが発生しました

txt

1(django_dog) [root@localhost ocrd-train]# nohup time -f "Run time = %E\n" make training MODEL_NAME=mnist >> train.log 2>&1 & 2[1] 51691 3(django_dog) [root@localhost ocrd-train]# tail -f train.log 4Command exited with non-zero status 2 5Run time = 0:00.45 6 7nohup: 入力を無視します 8unicharset_extractor --output_unicharset "data/mnist/unicharset" --norm_mode 2 "data/mnist/all-gt" 9/bin/bash: unicharset_extractor: command not found 10make: *** [Makefile:186: data/mnist/unicharset] エラー 127 11Command exited with non-zero status 2 12Run time = 0:00.45 13 14

#上記エラーはtesseractフォルダ内でmake training & make training-installを実行したところ解消されました。ただ、再度学習コマンドを走らせたところ以下のエラーが発生しました

txt

1Page 1 2+ tesseract data/mnist-ground-truth/00003.tif data/mnist-ground-truth/00003 --psm 13 lstm.train 3read_params_file: Can't open lstm.train 4Tesseract Open Source OCR Engine v4.1.1 with Leptonica 5Page 1 6+ tesseract data/mnist-ground-truth/00002.tif data/mnist-ground-truth/00002 --psm 13 lstm.train 7read_params_file: Can't open lstm.train 8Tesseract Open Source OCR Engine v4.1.1 with Leptonica 9Page 1 10+ tesseract data/mnist-ground-truth/00001.tif data/mnist-ground-truth/00001 --psm 13 lstm.train 11read_params_file: Can't open lstm.train 12Tesseract Open Source OCR Engine v4.1.1 with Leptonica 13Page 1 14+ tesseract data/mnist-ground-truth/00000.tif data/mnist-ground-truth/00000 --psm 13 lstm.train 15read_params_file: Can't open lstm.train 16Tesseract Open Source OCR Engine v4.1.1 with Leptonica 17Page 1 18find data/mnist-ground-truth -name '*.lstmf' | python3 shuffle.py 0 > "data/mnist/all-lstmf" 19Error: missing ground truth for training 20make: *** [Makefile:166: data/mnist/list.train] エラー 1 21Command exited with non-zero status 2 22Run time = 7:08.32 23

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

#参考となるHPを発見

txt

1https://github.com/tesseract-ocr/tesstrain/issues/28

#eng.traineddataが必要だったらしく、以下の設定を見直し。

txt

1$ wget https://github.com/tesseract-ocr/tessdata/raw/master/jpn.traineddata -P $TESSDATA_PREFIX 2$ wget https://github.com/tesseract-ocr/tessdata_best/raw/master/eng.traineddata -O $TESSDATA_PREFIX/eng.traineddata 3$ wget https://github.com/tesseract-ocr/tessdata_best/raw/master/jpn.traineddata -O $TESSDATA_PREFIX/jpn_best.traineddata 4$ wget https://github.com/tesseract-ocr/tessdata_best/raw/master/jpn_vert.traineddata -P $TESSDATA_PREFIX

#lstm.train は以下のアドレスから頂き

txt

1/home/sun/tesseract-4.1.1/tessdata/configs/lstm.train

#/tess/ocrd-train/の直下に置きました。一応上記の処理で学習は行えました。

投稿2020/09/03 10:30

sarasa_38765

総合スコア34

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問