pythonでスキャンしたpdfをwordに変換して編集したい

紙をスキャンしたpdfデータを画像に変換して、画像認識？をしてwordに書き出し、wordで文章を編集したいのですが、そのような方法はpythonでできますでしょうか？
ご教示いただけたら幸いです。よろしくお願い致します。

mike2mike4

2020/04/22 06:50

以前、市販の変換ソフトを何点か使ってwordに復元しようと試みましたが、どのソフトも復元率が低くて使い物にならないということがありました。

yamaitsu12

2020/04/22 06:51

市販のものでも、そういった課題があるのですね…。画像認識が強いpyhonなら可能かな、と思いまして質問させていただきました。

行動規範の内容に同意します

回答1件

画像処理での光学文字認識（OCR）という技術がございます．
無料の範囲で行うとするなら不可能ではありませんが，自作でとなるとかなりの技術力が必要でしょう．
画像処理，機械学習に慣れていれば一週間ほどで作成できます．

Googleの提供するCloud Visionを利用してスクリプトを作成するのが一番コストパフォーマンス面で現実的かと思います．その場合ならばAPIを利用した経験さえあれば2~3日で実装可能ではないでしょうか？
pdf → jpgなどにスライス → 各画像にOCR → 文章を整形してdocx形式で出力