スキャンされたPDFの文字(日本語と英語の複合)を読み取りたいのですが、数字は読み込みますが、日本語がと見込めない事が多いです。
印刷物は手書きではなく、ちゃんとした文書ですがうまく読み込めません。
下記のURLにあるようにダウンロードしました。
https://www.kkaneko.jp/tools/win/tesseract5.html
jpn.traineddataをダウンロードしないといけないのでしょうか?
全くの初心者で質問字体わかりにくくて申し訳ないですが、どなたかご回答お願いします。
あなたの回答
tips
プレビュー