質問編集履歴

「試したこと」を追記しました。

2021/12/20 02:35

投稿

yohoho

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -106,6 +106,105 @@
     print(result)
+```
+### 試したこと
+下のコードのように
+pdfをページごとに分割した後に画像化をすると上手くいくので、おそらくJPEG化あたりで何かを間違えているのがと思いますが、原因が分からず困っている状態です。
+```python
+# プログラム｜ライブラリ設定
+import PyPDF2
+import pathlib
+import os
+from pdf2image import convert_from_path
+from PIL import Image
+import sys
+from pyocr import pyocr
+from pyocr import builders
+import cv2
+import numpy as np
+import pandas as pd
+file = './9510.pdf'
+scan = file.replace('.pdf','')
+# インストール済みのTesseractのパスを通す
+path_tesseract = r"C:\Users\AppData\Local\Programs\Tesseract-OCR"
+if path_tesseract not in os.environ["PATH"].split(os.pathsep):
+    os.environ["PATH"] += os.pathsep + path_tesseract
+# OCRエンジンの取得
+tools = pyocr.get_available_tools()
+#print(tools)
+tool = tools[0]
+# プログラム2｜フォルダ内のPDFを全て取得
+curdir = os.getcwd()
+# プログラム4｜分割したPDFを保管するためのフォルダ作成
+path = os.path.join(curdir, scan)
+if not os.path.isdir(path):
+    os.makedirs(path)
+# プログラム5｜PDFを分割
+pdf = PyPDF2.PdfFileReader(file)
+for page in range(pdf.numPages):
+    print(page)
+    newpdf = PyPDF2.PdfFileWriter()
+    newpdf.addPage(pdf.getPage(page))
+    # PDFをページごとに分割
+    pageNo = format(page, '0>3')
+    splitpdf = os.path.join(path, f'{pageNo}.pdf')
+    with open(splitpdf, 'wb') as f:
+            newpdf.write(f)
+    # 3.pdfからjpgへの変換
+    img = convert_from_path(splitpdf)
+    filename = splitpdf.replace(".pdf",".jpg")
+    #print(img)
+    for images in img:
+        images.save(filename)
+    filename0 = splitpdf.replace(".pdf","")
+    #画像を切り取る
+    imp_crop = Image.open(filename).crop((900,200,1600,400))
+    imp_crop.save(filename)
+    #画像の下線を消す
+    img00 = cv2.imread(filename)
+    ##画像をグレースケールに変換
+    gray = cv2.cvtColor(img00, cv2.COLOR_BGR2GRAY)
+    #cv2.imwrite(filename0+"_gray.jpg", gray)
+    ##画像を白黒反転する（下線を検出しやすくするため）
+    gray2 = cv2.bitwise_not(gray)
+    #cv2.imwrite(filename0+"_blackandwhite.jpg", gray2)
+    ##下線を検出
+    lines = cv2.HoughLinesP(gray2, rho=1, theta=np.pi/180, threshold=200, minLineLength=400, maxLineGap=2)
+    print(lines)
+    ##線を消す（白線を引く）
+    for line in lines:
+        x1, y1, x2, y2 = line[0]
+        # 線を消す(白で線を引く)
+        no_lines_img = cv2.line(img00, (x1,y1), (x2,y2), (255,255,255), 3)
+        cv2.imwrite(filename0+"_noline.jpg", no_lines_img)
+    os.remove(filename)
+    # 3.原稿画像の読み込み
+    img_org = Image.open(filename0+"_noline.jpg")
+    # 4.ＯＣＲ実行
+    builder = builders.TextBuilder(tesseract_layout=6)
+    result = tool.image_to_string(img_org, lang="eng", builder=builder)
+    print(result)
 ```