Microsoft WordはMicrosoftが開発した業務用の文書生成用のソフトウェアです。
PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。
Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。
Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。
Q&A
1回答
4004閲覧
総合スコア14
0グッド
0クリップ
投稿2020/04/22 06:43
0
紙をスキャンしたpdfデータを画像に変換して、画像認識?をしてwordに書き出し、wordで文章を編集したいのですが、そのような方法はpythonでできますでしょうか? ご教示いただけたら幸いです。よろしくお願い致します。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
質問へのコメント
2020/04/22 06:50
2020/04/22 06:51
回答1件
画像処理での光学文字認識(OCR)という技術がございます. 無料の範囲で行うとするなら不可能ではありませんが,自作でとなるとかなりの技術力が必要でしょう. 画像処理,機械学習に慣れていれば一週間ほどで作成できます.
Googleの提供するCloud Visionを利用してスクリプトを作成するのが一番コストパフォーマンス面で現実的かと思います.その場合ならばAPIを利用した経験さえあれば2~3日で実装可能ではないでしょうか? pdf → jpgなどにスライス → 各画像にOCR → 文章を整形してdocx形式で出力
pdf → jpgなどにスライス → 各画像にOCR → 文章を整形してdocx形式で出力
画像認識が強いpythonなら可能かな
pythonの裏で動いているのはC言語系のスクリプトです.「Python自体が」というよりは,画像処理も含めていろいろなパッケージが揃っていて手を出しやすいのでPythonならやりやすい,という論理構造ですので念のため訂正させていただきます.
投稿2020/09/15 09:34
総合スコア70
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
まだベストアンサーが選ばれていません
アカウントをお持ちの方はログイン
15分調べてもわからないことはteratailで質問しよう!
ただいまの回答率85.35%
質問をまとめることで思考を整理して素早く解決
テンプレート機能で簡単に質問をまとめる
pythonでスキャンしたpdfをwordに変換して編集したい