Tesseractのメソッドの使い方がわからない

Tesseractは光学文字認識エンジンで、これに限らずオープンソースのソフトウェア使うとき全般に言えることなのですがそこで提供されているメソッド(?)やその使い方はGithubのどこに書かれていたりするのでしょうか？
例えばこちらはTesseractのリポジトリで、YouTubeのTesseractを使ったPythonによる光学文字認識入門動画で以下のようなコードを書いたのですが、そこでの文字認識の結果があまり良くなかったためこちらの記事にあるような「エンジンの切り替え」を行ってみたいのですがGoogle Colab上でどう行えるのかがわかりません。ローカルで行ってる記事が多く、Google Colab上では行えないのでしょうか？知見をお持ちの方、ぜひよろしくお願いいたします。

from PIL import Image
import pyocr
import cv2
img1 = Image.open('drive/My Drive/Colab Notebooks/sample.jpg')

tools = pyocr.get_available_tools()
tool = tools[0]
# tesseract_layoutには0から13までの14種類のアルゴリズムを指定できるらしい
txt1 = tool.image_to_string(img1, lang='eng+jpn', builder=pyocr.builders.TextBuilder(tesseract_layout=11))
print(txt1)

mskaaa

2021/09/06 10:30

そもそもColab上でtesseractを実行出来ていますか？

cunwe

2021/09/06 10:52

ご質問ありがとうございます。はい、!apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpnと !pip install pyocrを実行しまして、Successfully installedとなっております。

行動規範の内容に同意します

回答2件

https://pypi.org/ を開く
使っているライブラリで検索する
ライブラリの詳細を開く
書いてあることを読む（pyocrの場合は空ですが）
左のHomepageと書いてあるリンクやSource Codeと書いてあるリンクなどを辿ってソースの在処を確認する (pyocrの場合はGitLabで公開されている）（左に Documentation というリンクがあったり、公式ドキュメントがあるようならそれを読む）
検索で該当しそうなワードを入れて検索する。この場合はoem
Issuesに1件あることが確認できるので開く
該当のIssueは放っておかれているものの、"Workaround for me is:"という方法が載っているので試す
もっと調べたければ、builder.tesseract_flags += というコードが見えるので検索でtesseract_flagsと入れて検索する
使っていそうな所を探していく。ここからここに渡っていると分かる(masterのソースにリンクするといつか行番号が変わってしまうのでtagを指定してリンクしてます)

みたいな感じで探していきますよ。

投稿2021/09/08 00:49

編集2021/09/08 00:52

quickquip

総合スコア11305

cunwe

2021/09/08 12:01

とても詳しく解説していただきありがとうございます。ある種のそういった"お作法"的なものが知れて嬉しい限りです。ご回答に記載の"Workaround for me is:"を見させていただきましたが、そこではWordTextBuilderを使っており、私はTextBoxBuilderを使っていて試しに txt1 = tool.image_to_string(img1, lang='eng+jpn', builder=pyocr.builders.TextBuilder(tesseract_layout=11).tesseract_flags += ['--oem', '1']) に書き換えて実行してみましたが、ダメでした。また、builder.tesseract_flags += ['--oem', '1']は[{オプション}, {数字}]という構造になっており、このような構造になってる箇所をtesseract.pyやbuilders.pyで探してみたのですが見当たりませんでした。お手数ですが、こういった場合のアプローチ方法をご教授いただけますでしょうか...？

quickquip

2021/09/08 12:26

Tesseractの知識がゼロなので「TextBuilderを使っている」のがどういう意味を持っているのか、まったく分かりません。 TextBuilderはBaseBuilderを"特殊化"したものであって、より限られたコマンドライン引数しか渡せないようになっています。つまりより"用途が限られたもの"です。それが"pyocrの設計上のミス"なのか、"Tesseractに起因する制限"なのかの区別が私にはできません。

cunwe

2021/09/09 04:31

確かに継承していますね。ちなみにTextBuilderは読み込んだ画像から文字を抽出するメソッドです。色々調べたのですがコマンドラインのオプション引数としてOCRエンジン(OEM)を切り替えてる例は多いのですが、Google Colab上で行なってる例がないので"Tesseractに起因する制限"なのかもしれません。。

行動規範の内容に同意します