質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

1回答

1947閲覧

スキャンした請求書を分類したいです。オススメ書籍や勉強になるサイトなどあれば教えてください。

disc_7

総合スコア100

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

1クリップ

投稿2017/01/24 07:57

###目的
請求書がどの会社からのものか、分類することが目的です。

OCRなどで請求書にある会社名は、日本の請求書は大抵が社判と
重なっているために、読み込めないケースが大半でした。

画像として分類して、類似したものですから、分類できないものか?
と考えています。
毎月の請求書スキャン画像の差異は、日付と請求額以外はほぼ同じ、
明細行数が違う場合があるのが、一番の差になりそうです。

定期的な請求が大半で大量なので、
データ化して入力を省力化できないものかと。

以下、質問です。

###(質問1)参考になりそうな書籍はありますか?
画像の分類は、機械学習になるのかと思いますが、
おすすめの書籍などがあれば教えてください。
そもそも方法が違うよ、こんな方法で実現できる、
というご指摘も歓迎です。

###(質問2)どの程度の難易度でしょうか?
画像の分類はそこまで難易度が高くなく、サンプルもWeb上に
動かせるものがありそうかと、甘い考えでした。
実際はじっくり学習しないとハードル高いよ、ということでしたら、
その点もご指摘ください。

####私の経験など、いまできること
あまり関係ないかもしれまんせが、一応。
機械学習については、ネット記事を読んだりくらいで、
基礎知識が不足しています。

主は業務でやっているWindows Formのシステム開発です。
言語:VB.net(Visual Studio2005)
DB:MS SQL Server2005

趣味プログラムなどで。
言語:PHP、Ruby(on Rails)、HTML・CSS

会社・自宅のパソコンともにWindows環境です。
LinuxなどはAWSでやっています。

よろしくお願いいたします。
以上です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

MasashiKimura

2017/01/24 10:42

社判の色はだいたい赤、文字は黒と考えていいですか?
disc_7

2017/01/25 00:40

社判は現状はすべて赤でした。文字は緑がありました。請求書の紙も白でないものもあります。スキャンした画像は税務書類で保管ではないので、モノクロも可能です。
guest

回答1

0

色領域抽出してから、OCRにかけるのはどうでしょうか。
OCR自体を作るのは難しいのでどうにかして市販のものにつなげてもらうことにします。

まずは、色領域抽出で黒文字の部分を取り出します。(赤文字部分を白で塗りつぶすのでも可能)

このあたりが参考になるかもしれません。
http://imagingsolution.blog107.fc2.com/blog-entry-248.html

次に、それらを画像として保存して、OCRにかけます。

うまく行くかはやってみないとわかりませんが。。。

投稿2017/01/25 01:58

MasashiKimura

総合スコア1150

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

disc_7

2017/01/25 07:46

回答ありがとうございます。 OpenCV、使える言語がC#あたりが一番読みやすそうなので、いただいた参考URLを置き換えるなどして、 事項錯誤してみます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問