今、仕事で昔の紙伝票を電子化&データベース化するというミッションがあります。
単純にアルバイトでも臨時で雇って電子化と入力作業をお願いするという手段とかも考えられますが、芸がないのと社内の雰囲気としても技術的挑戦は許されるので少し考えている最中です。(あまり大型投資は許されませんが・・・)
いろいろと調べていますが、あまり文献がなかったのでここに書いてみた次第です。雑談レベルでヒントを頂けるとすごく嬉しいです。
調べていく中で、Google Cloud Vision APIはなかなかの画像認識レベルということがわかりました。
これを使えばデータの抽出はかなりいい感じにいけるのではないかと思っています。
しかし、ここで課題があるのですが紙伝票のデータ内容はほぼほぼ似た感じであるのですがフォーマットが100種類??くらい存在しているという問題があります(´;ω;`)ウゥゥ
同一フォーマットであれば抽出されたX行目のデータをデータベースのどのフィールドに投げ込みという処理をしてあげればいいと思うのですがさすがにフォーマットがバラバラだと難しいですよね。
AIとかで自動認識してデータをある程度整形してくれないかななんて冗談を考えつつどのような仕組みがいいのか悩んでいます。
このような構成をもとにした場合、皆さんであればどのように解決されていきますか?
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー