質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.92%

PDF等の画像の文字の文字サイズを取得できず困っています

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 2,291

takaxs

score 11

画像の文字を認識する方法については試してできたのですが、
タイトルの通り、画像の文字の文字サイズを取得する方法が探しても見つかりませんでした。

getFontSize的なものがあるのかと思いocrライブラリ内の命令も探してみたのですが見つかりません。

使用したocrはpyocrです。

文字認識で試したソース一応載せておきます。
何の文字なのかまでは認識できてませんが動いたものです。

このソースに修正や追加を行って対応可能でしょうか?

from PIL import Image
import sys
import pyocr
import pyocr.builders

tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)
# The tools are returned in the recommended order of usage
tool = tools[0]

txt = tool.image_to_string(
    Image.open('D:/sample.png'),
    lang="jpn+eng",
    builder=pyocr.builders.TextBuilder(tesseract_layout=6)
)

print(txt)

やり方が分かる方、是非教えていただければ幸いです。
何卒宜しくお願い申し上げます。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

+1

Tesseract には確かにフォントサイズを取得する API がありますが、残念ながら pyocr では対応していないようですね。そのままでは取得できません。

仕方ないので、 OCR ツールとして tessaract CLI コマンドを用いるとして次のようなモンキーパッチを当ててみたところ、手元の環境では追加でフォントサイズも取得できるようになりました。尚、 tesseract CLI コマンドからフォントサイズを要求するオプションを使用するには、 Tesseract 3.04.00 以降が必要です。

import re
import PIL.Image
import pyocr


class _WordHTMLParserWithFontAttr(pyocr.builders._WordHTMLParser):
    '''
    Tesseract hOCR parser with support for x_fsize additional attribute.
    '''
    def __init__(self):
        super(_WordHTMLParserWithFontAttr, self).__init__()

        self._last_box = None
        self._re_fsize = re.compile(r'(^|;)\s*x_fsize\s+(?P<fsize>\d+)')
        self.__current_fsize = None

    def handle_starttag(self, tag, attrs):
        super(_WordHTMLParserWithFontAttr, self).handle_starttag(tag, attrs)

        # Memorize `x_fsize` attribute if found
        if tag != 'span':
            return

        title = None
        tag_type = None

        for attr in attrs:
            if attr[0] == 'class':
                tag_type = attr[1]
            if attr[0] == 'title':
                title = attr[1]

        if title is not None and tag_type in ('ocr_word', 'ocrx_word'):
            self.__current_fsize = None
            m = self._re_fsize.search(title)

            if m:
                self.__current_fsize = int(m.group('fsize'))

    def handle_endtag(self, tag):
        super(_WordHTMLParserWithFontAttr, self).handle_endtag(tag)

        if len(self.boxes) > 0 and self.boxes[-1] != self._last_box:
            self._last_box = self.boxes[-1]
            self._last_box.fsize = self.__current_fsize


class WordBoxBuilderWithFontAttr(pyocr.builders.WordBoxBuilder):
    '''
    Builder with support for `hocr_font_info` on Tesseract 3.04 and 3.05.
    '''
    def __init__(self, tesseract_layout=1):
        super(WordBoxBuilderWithFontAttr, self).__init__(
            tesseract_layout=tesseract_layout
        )

        # Requires tesseract >= 3.04.00
        self.tesseract_configs += ['-c', 'hocr_font_info=1']

    def read_file(self, file_descriptor):
        '''
        Same as WordBoxBuilder.read_file, except for using parser class.
        '''
        parser = _WordHTMLParserWithFontAttr()
        html_str = file_descriptor.read()
        parser.feed(html_str)

        if len(parser.boxes) > 0:
            last_box = parser.boxes[-1]

            if last_box.content == pyocr.builders.to_unicode(''):
                # some parser leave an empty box at the end
                parser.boxes.pop(-1)

            return parser.boxes

        return []


image = PIL.Image.open('sample.png')
builder = WordBoxBuilderWithFontAttr()
boxes = pyocr.tesseract.image_to_string(image, lang='jpn+eng', builder=builder)

for box in boxes:
    print(
        '"%s": at %d, %d (%d x %d) / fsize=%d' % (
            box.content,
            box.position[0][0],
            box.position[0][1],
            box.position[1][0] - box.position[0][0],
            box.position[1][1] - box.position[0][1],
            box.fsize,
        )
    )

ただ、さらに残念なことに、同様のコードは (まだ alpha 版ですが) 最新の Tesseract 4.00.00alpha では動作しません。異常な値のフォントサイズが返されます。これは、 4.00 で採用されている LSTM ベースの OCR エンジンがフォント認識に対応していないため だそうで、今後対応するかどうかも不透明なようです。

そういった将来的な互換性のことも考えると、もしかすると変なパッチを当てて無理やり使うよりは、単に認識された box の高さ (前掲のコード同様に、標準の pyocr.builders.WordBoxBuilder を使えば position から計算できます) をフォントサイズの代わりとして使用した方が良いのかもしれません。そのあたりは適宜ご自身でご判断下さい。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/05/17 15:04

    ご回答いただきありがとうございます。

    色々試してみたのですが、PDFファイルでの変換は難しいでしょうか?

    検索して出てくるのがwandやimagemagickといったものですが、
    なかなかうまくいかず。

    pyocrと組み合わせて使えるのであれば是非お教えいただきたいです。
    宜しくお願いいたします。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.92%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る