Python Docuworksからテキストを抽出したい

Question

### Docuworksからテキストを抽出したいいつも大変お世話になっております。 Docuworksからテキストを抽出するプログラムに挑戦中です。 Docuworksのホームページ幸いなことに既にプログラムを公開してくださってる方がおりまして、早速使用させていただいたのですが、うまくいきません。 pythonファイルにDocuworksをドラッグ・ドロップしたところテキストファイルは作成されましたが、中身が空でした。公開してくださった方のサイト↓ 以下公開してくださった方のコード ```python from sys import argv, exit from os.path import basename, isfile, splitext from xdwlib import xdwopen def export_xdwfulltext(input_file): BASE_FILENAME , ext = splitext(input_file) if ext.lower() != ".xdw": print("指定されたファイルの拡張子が.xdwではありません。["+ext+"]") input("Hit Enter key.") return if not isfile(input_file): print("指定されたファイルが存在しません。["+input_file+"]") input("Hit Enter key.") return OUTPUT_PATHNAME = BASE_FILENAME + ".txt" if isfile(OUTPUT_PATHNAME): print("出力先のファイルが既に存在します。["+OUTPUT_PATHNAME+"]") answer = input("上書きしますか？（Y/N):") if answer.upper()[0] != "Y": print("処理を中断しました。") return with open(OUTPUT_PATHNAME,"w",encoding="utf-8") as f,\ xdwopen(input_file) as doc: for p in doc: f.write(p.fulltext()) f.write(" ") if __name__ == '__main__': if len(argv) < 2: print(basename(argv[0]),"は、ドキュワークスで出力されたxdwファイルの中のテキストを出力するプログラムです。") print("拡張子が.xdwのファイルのみ対象とし、同ファイル名の.txtファイルとして出力します。") print("使い方１：",basename(argv[0]),"hoge.xdw ...") print("使い方２：",basename(argv[0]),"に、ファイルをドラッグ＆ドロップ") input("Hit Enter key.") exit for f in argv[1:]: export_xdwfulltext(f) ``` ### 試したこと自分で作成してみようと思い、調べてみたのですが Docuworksから何らかのツールを使用してテキストを抽出するより、 OCR化して使用している人が多く、サンプルをなかなか見つけられませんでした。 OCR化はできるのですが、できればpythonで挑戦したいと考えております。以下のサイトは見てみました。アドバイス、おすすめのサイト等ご教授いただければ幸いです。初心者のため拙い質問等すると思います。そういった質問にも答えられる方どうぞよろしくお願い致します。攻撃的な言葉を使用する方は苦手なので、他の方のお力になって頂ければ幸いです。どうぞよろしくお願い致します。

Accepted Answer

### コードが足りていないのではないか、という結論に至りました。

試して頂いた方に感謝します。
自分のDocuworksの変換の仕方がおかしいのか？と疑っていたので、すっきりしました。
アプリケーション文書、イメージ文書などさまざまなDocuworksを作成しましたが
どうやらコードが足りてなかったようなので、今度は自分で作成してみます。

Docuworksからテキストを抽出したい

試したこと

コードが足りていないのではないか、という結論に至りました。

関連した質問