質問するログイン新規登録

回答編集履歴

1

回答の削除

2025/11/24 17:17

投稿

hiroki-o
hiroki-o

スコア1649

answer CHANGED
@@ -1,27 +1,1 @@
1
- 以下環境確認しました
1
+ 反応が無いので削除しま
2
- - Windows 11
3
- - Python 3.13.7
4
- - tesseract 5.5.0.20241111
5
- - poppler 25.07.0
6
-
7
- pip
8
- - openpyxl 3.1.5
9
- - pdf2image 1.17.0
10
- - pillow 11.3.0
11
- - pytesseract 0.3.13
12
-
13
- 提示されたソースを実行したところ、日本語が認識されていません。
14
- 37行目を、`eng`から`jpn`に変更します。
15
-
16
- > text = pytesseract.image_to_string(img, lang="jpn")
17
-
18
- 日本語を認識するためのデータ`jpn.traineddata`を以下からダウンロードして配置します。
19
- [https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata](https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata)
20
-
21
- 場所
22
- > C:\Program Files\Tesseract-OCR\tessdata
23
-
24
- 以上で、PDFから読み取ったテキストが、テキストファイルおよびExcelファイルに出力されています。
25
-
26
- (参考)
27
- [https://qiita.com/ryome/items/16fc42854fe93de78a23](https://qiita.com/ryome/items/16fc42854fe93de78a23)