Wordからテキストと、画像の位置を取得したい

前提・実現したいこと

今までwordで日記を書いていて、それを最近使い始めたJuplinというものにデータをインポートしたいと考えています。現在、wordの日記の方には、

2021/05/03

今日は朝ごはんに納豆を食べた。
・・・
（たまに画像も入っている）

2021/05/04

朝からアルバイトに行った。

・・・

このように1つのwordのファイルに数十日分書かれています。
これらを日付ごとに文書を分けたくて
pythonでwordを操作して、テキストと画像の位置を取得して分離しようと考えています。
python-docxをインポートして行おうと思ったのですが、テキストは簡単に読み取れて分離するアイデアも思いついているのですが、それに画像を含めることが全くできず苦戦しています。

補足情報（FW/ツールのバージョンなど）

Jupyterlabを使ってやっています。
pythonに限らず例えばword VBAを使えば上記のことが簡単に行えるなどあれば教えていただきたく存じます。

行動規範の内容に同意します

回答3件

多少手間はかかりますが、ワード文書を構成するXMLファイルから自分で必要な情報を抽出し直せば、本文テキストの間に画像ファイルを位置付けることは可能です。

python-docx を利用されているとのことですが、Document オブジェクトの element 属性に、ワードの本文ファイル（document.xml）をパースした結果が格納されていますので、これを利用することができます。
また、ワードの本文ファイルには画像ファイルのパスそのものではなく、画像ファイルのIDが書き込まれていますが、Document.part.rels 属性にIDと画像ファイルの対応の情報が格納されていますので、これを利用することができます。

以下はサンプルプログラムです。申し訳ありませんが詳しい説明は省略させていただきますので、何かあればコメントでお尋ねください。

Python
1from docx import Document
2
3doc = Document("sample.docx")
4
5# IDと画像ファイルの対応を辞書として取得
6rels_to_img_file = {}
7for rel in doc.part.rels.values():
8    if rel.reltype.endswith("image"):
9        rels_to_img_file[rel.rId] = rel.target_ref
10
11# ワードファイル本文から <p> 要素と <blip> 要素のみを抜き出して繰り返し処理
12for elm in doc.element.iter("{*}p", "{*}blip"):
13    # <p> 要素内の <t> 要素からテキストを抜き出す
14    para_text = ""
15    for t in elm.iter("{*}t"):
16        para_text += t.text
17    print(para_text)
18
19    # <blip> 要素の "embed" 属性からIDを取得する
20    rel_id = elm.attrib.get("{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed")
21    if rel_id:
22        # IDから画像ファイルのパスを取得する
23        print(rels_to_img_file[rel_id])

参考：
https://docs.microsoft.com/ja-jp/office/open-xml/structure-of-a-wordprocessingml-document
https://docs.microsoft.com/ja-jp/office/dev/add-ins/word/create-better-add-ins-for-word-with-office-open-xml#working-with-images

投稿2021/05/04 08:04

etherbeg

総合スコア1195

WORDでHTML形式で保存して、保存したHTMLをパースして取得するのが一番手っ取り早いと思います。

投稿2021/05/04 08:19

Y.H.

総合スコア7918

こんばんは。

問題提起に関する文章を拝読しました。

docxファイル自体は、zipファイルで圧縮されているもので、拡張子を.zipに書き換えて解凍すれば、埋め込まれている画像ファイルを取得できます。

上記のことを利用してプログラムを組むといい感じにやりたいことを実現できるように感じます。

以下に示される記事がすごくわかりやすかったので、こちら参考にしていただけますと幸いです。わからないことがありましたら、気軽にご連絡ください。
・Pythonでワードのdocxファイルから画像ファイルを取り出す方法

投稿2021/05/03 11:18

退会済みユーザー

総合スコア0

AkitaGaku

2021/05/03 15:35

丁寧にご回答いただきありがとうございます。見返すと私の質問が少し不十分で、”テキストと画像の位置を取得”というのは、それぞれを独立して取得というよりは、両方とも合わせて取得という意味でした。画像の位置というのは画像がテキストの中のどのタイミングで配置されているかということです。日付ごとにwordにかかれている中、各日付ごとの内容をそれぞれまるごと別々のファイルに分離したいです。おそらくご提示されたURLは画像を抽出するのは可能ですが、それがどこにあるのかという情報はわからなかったです。なにかいい方法ないですかね......

行動規範の内容に同意します

あなたの回答