画像から文字が抽出できない。

Question

指定した画像から文字を抽出して、文字認識を行いたいです。
(不必要なimportが混じっていますが、ご容赦願います)

書いているコードだと[tools]が空のため、[No OCR tool found]に繋がってしまいます。
どうすれば、文字抽出に進むことができるでしょうか。

【結果】
```python
1
No OCR tool found
```

【コード】
```python
    picno = 1
    for i in range(5):
        event_pic = testfld + '/Cut/988-3_no' + str(picno) + '.png'
        print(picno)

        #======================================
        # グレースケール
        mov_in = cv2.imread(event_pic, cv2.IMREAD_GRAYSCALE)    # 画像ファイrの読み込み
        if mov_in is None:
            print('ファイルが読み込めません')
            import sys
            sys.exit()

        cv2.imwrite(testfld + '/mov_in_gray.png', mov_in)
        cv2.waitKey(0)

        #======================================
        # 2値化
        img_gry = (testfld + '/mov_in_gray.png')
        org_img = cv2.imread(img_gry, 0)

        THRESHOLD = 215         # 閾値はNumpyで調べた
        MAXVALUE = 255          # 255 = white

        _, bin_cv2 = cv2.threshold(org_img, THRESHOLD, MAXVALUE, cv2.THRESH_BINARY_INV)
                    # [_INV]で背景白、黒文字にすることができる(Tesseractで読める絶対条件！)

        bin_npy = np.zeros(org_img.shape, org_img.dtype)
        bin_npy[np.where(org_img > THRESHOLD)] = MAXVALUE

        cv2.imwrite(testfld + '/binary_no' +str(picno)+ '.png', bin_cv2)

        #======================================
        # 文字認識
        tools = pyocr.get_available_tools()
        if len(tools) == 0:
            print('No OCR tool found')
            sys.exit()
        tool = tools[0]
##        print("Will use tool '%s'" % (tool.get_name()))

        langs = tool.get_available_languages()
##        print("Availble languages: %s" % ", ".join(langs))
                    # 使用可能言語の確認なので、コメントアウト中
                    # [langs]に入れる略記の確認には使える

        txt = tool.image_to_string(
            Image.open(testfld + '/binary_no' +str(picno)+ '.png'),
            lang = 'eng',
            builder = pyocr.builders.TextBuilder()
        )
        print(txt)
        print('----------------------------')

        if picno == 1:
            ev01 = txt
        elif picno == 2:
            ev02 = txt
        elif picno == 3:
            ev03 = txt
        elif picno == 4:
            ev04 = txt
        elif picno == 5:
            ev05 = txt

        picno = picno + 1

        print('----------------------------')
        print('Event5回取得')
        print('----------------------------')

        text = [ev01, ev02, ev03, ev04, ev05]
```

Answer

pyocr はただのラッパーライブラリなので、OCR 本体を別途インストールする必要があります。

Ubuntu であれば、以下のコマンドでインストールできました。
他の OS であれば、[Home · tesseract-ocr/tesseract Wiki](https://github.com/tesseract-ocr/tesseract/wiki) を見ながら入れてください。

```bash
apt-get install -y tesseract-ocr
apt-get install -y libtesseract-dev
# 日本語データをダウンロードして、コピー
wget https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
cp jpn.traineddata /usr/share/tesseract-ocr/tessdata/
```

```python
import pyocr
from PIL import Image
from pyocr.builders import TextBuilder

tools = pyocr.get_available_tools()
assert len(tools) > 0  # OCR ソフトがインストールされていないといけない

tool = tools[0]
print(tool.get_name())

langs = tool.get_available_languages()
print('Available languages:', ', '.join(langs))

img = Image.open('test.png')
txt = tool.image_to_string(img, lang='jpn',
                           builder=TextBuilder(tesseract_layout=6))
print(txt)
```

デフォルトだと認識精度がいまいちですね。設定等調整すると改善するのかもしれませんが。。。

![イメージ説明](0fb3dd7f61b07391001213f93edc81f8.png)

```
馴。" (バイ ソン) は、 柵のプロダラミンケ言語でぁる〟 コードがシンプ
ルで扱ぃやすく設計されてぉり` C言語などに比べて、 さまざまなブロダラム
を分かりゃす〈、 少なぃコー ド行数で書けるとぃった特徴かぁる〟
```

関連した質問