回答編集履歴
1
s
answer
CHANGED
@@ -3,6 +3,6 @@
|
|
3
3
|
tesseractOCR の認識は1文字単位でどの文字かというのを判定しているので、似ている漢字があると誤認識は一定数発生してしまいます。
|
4
4
|
これを解決するために、候補が複数ある場合は前後の文章の情報も利用して選択する自然言語処理も組み合わせたアプローチが必要になると思います。人間であれば、読みづらい文字があったとしても、それまでの文脈から判断して脳内補完するということを自然とやっていると思います。
|
5
5
|
|
6
|
-
Python の日本語対応している OCR ライブラリでそこまでやってくれるソフトはおそらくないので、自分で論文調査等して、実装までする必要があるでしょうね。
|
6
|
+
商用の OCR ソフトだとそういうこともやっているかもしれないですが、Python の日本語対応している OCR ライブラリでそこまでやってくれるソフトはおそらくないので、自分で論文調査等して、実装までする必要があるでしょうね。
|
7
7
|
|
8
8
|
少なくとも簡単に解決できる問題ではありません。
|