回答編集履歴

回答の削除

2025/11/24 17:17

投稿

スコア1864

answer CHANGED Viewed

@@ -1,27 +1,1 @@
-以下の環境で確認しました。
+反応が無いので削除します。
-- Windows 11
-- Python 3.13.7
-- tesseract 5.5.0.20241111
-- poppler 25.07.0
-pip
-- openpyxl    3.1.5
-- pdf2image   1.17.0
-- pillow      11.3.0
-- pytesseract 0.3.13
-提示されたソースを実行したところ、日本語が認識されていません。
-37行目を、`eng`から`jpn`に変更します。
-> text = pytesseract.image_to_string(img, lang="jpn")
-日本語を認識するためのデータ`jpn.traineddata`を以下からダウンロードして配置します。
-[https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata](https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata)
-場所
-> C:\Program Files\Tesseract-OCR\tessdata
-以上で、PDFから読み取ったテキストが、テキストファイルおよびExcelファイルに出力されています。
-(参考)
-[https://qiita.com/ryome/items/16fc42854fe93de78a23](https://qiita.com/ryome/items/16fc42854fe93de78a23)