回答編集履歴
1
回答の削除
answer
CHANGED
|
@@ -1,27 +1,1 @@
|
|
|
1
|
-
|
|
1
|
+
反応が無いので削除します。
|
|
2
|
-
- Windows 11
|
|
3
|
-
- Python 3.13.7
|
|
4
|
-
- tesseract 5.5.0.20241111
|
|
5
|
-
- poppler 25.07.0
|
|
6
|
-
|
|
7
|
-
pip
|
|
8
|
-
- openpyxl 3.1.5
|
|
9
|
-
- pdf2image 1.17.0
|
|
10
|
-
- pillow 11.3.0
|
|
11
|
-
- pytesseract 0.3.13
|
|
12
|
-
|
|
13
|
-
提示されたソースを実行したところ、日本語が認識されていません。
|
|
14
|
-
37行目を、`eng`から`jpn`に変更します。
|
|
15
|
-
|
|
16
|
-
> text = pytesseract.image_to_string(img, lang="jpn")
|
|
17
|
-
|
|
18
|
-
日本語を認識するためのデータ`jpn.traineddata`を以下からダウンロードして配置します。
|
|
19
|
-
[https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata](https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata)
|
|
20
|
-
|
|
21
|
-
場所
|
|
22
|
-
> C:\Program Files\Tesseract-OCR\tessdata
|
|
23
|
-
|
|
24
|
-
以上で、PDFから読み取ったテキストが、テキストファイルおよびExcelファイルに出力されています。
|
|
25
|
-
|
|
26
|
-
(参考)
|
|
27
|
-
[https://qiita.com/ryome/items/16fc42854fe93de78a23](https://qiita.com/ryome/items/16fc42854fe93de78a23)
|