前提
・Pythonで自動化をしたい
・添付のような画像(給与ねっと)が例えば20枚など送られてきます
・下記記載の方法での修正のアイデアや、それ以外のアイデアなど
目的を達成できる気づきになるアドバイスがほしいです。
実現したいこと
・画像からEXCELへそれぞれの項目の金額をまとめていきたい
・そのために、基本給が○○円、所得税が○○円、住民税が○○円と認識したい
発生している問題・エラーメッセージ
やってみたこと
- PDFに変換してtabulaライブラリを使って読み込みを実施
→表の中に手入力項目があるせいか、表として認識されないので
読み込みさえしてくれない
- GoogleのVisionAPIを使ってOCR
→文字などは高精度で読み込みでき、改行や空白で区切ってリストに格納することはできるのだが、
読み込みの順番?方向?が画像によってバラバラになるので、どの位置にどの項目の金額が指定できない
※例えば、'氏名'の次に必ず名前がくるとは限らない、
’氏名'という文字の読み込みがスズキの場合は先に読み込まれたり、佐藤の場合は後に読み込まれたりする。
このような状態なのですが、
なにか別のライブラリなど使ったほうが、などアドバイスもらえると嬉しいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/09/04 07:02