質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Word

Microsoft WordはMicrosoftが開発した業務用の文書生成用のソフトウェアです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2065閲覧

Python Difflibでの変遷表の作成

tatsu757

総合スコア12

Word

Microsoft WordはMicrosoftが開発した業務用の文書生成用のソフトウェアです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/01/31 14:10

Python difflibを使って2つのWordファイルの変更箇所を表にするプログラムを作成したいと考えています。

2つのWordファイルを比較して変更箇所をリストに格納するところまではできましたが、リスト内の要素を表に埋め込む作業がうまくいきませんでした。

現状と実現したい状態を下記に示します。

python

1import docx 2import difflib 3from docx.shared import Inches 4from docx import Document 5 6text1 = [] 7text2 = [] 8doc_ord = docx.Document('吾輩は猫である_Ver1.docx') 9 10for para1 in doc_ord.paragraphs: 11 text1.extend(para1.text.split('。')) 12 13doc_new = docx.Document('吾輩は猫である_Ver2.docx') 14for para2 in doc_new.paragraphs: 15 text2.extend(para2.text.split('。')) 16 17g = difflib.unified_diff (text1, text2) 18#gの中身はジェネレーター 19#print(list(g)) このようにリストに値を渡すことができる 20 21 22#変更前の文書を抽出 23lines_ord = [line for line in list(g) if line.startswith('-')] 24 25#変更後の文書を抽出 26lines_new = [line for line in list(g) if line.startswith('+')] 27 28 29 30# ドキュメントのファイル名 31docx_file = '変更対比表.docx' 32# ドキュメント生成 33document = Document() 34# 表の追加 35table1 = document.add_table(rows=10, cols=2) 36 37#表のヘッダー 38heading_cells = table1.rows[0].cells 39heading_cells[0].text = '変更前' 40heading_cells[1].text = '変更後' 41 42# 表に内容を設定 43columns1 = table1.columns[0].cells 44columns2 = table1.columns[1].cells 45 46for item1 in lines_ord: 47 columns1[0].text = str(item1[0]) 48 49for item2 in lines_new: 50 columns2[0].text = str(item2[0]) 51 52document.save(docx_file) 53

print(lines_old)結果
['--- \n', '-\u3000吾輩(わがはい)は猫である', '-何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している', '-ただ彼の掌(てのひら)に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである', '-そうしてその穴の中から時々ぷうぷうと煙(けむり)を吹く', '-どうも咽(む)せぽくて実に弱った', '-この書生の掌の裏うちでしばらくはよい心持に坐っておったが、しばらくすると非常な速力で運転し始めた', '-胸が悪くなる']

【現状】
リスト内の要素がセルに順番に書き込まれていない
イメージ説明

【理想】
+,-を削除した上で、左の列に変更前の文書(lines_ordの中身)、右側に変更後の文書(lines_newの中身)を書き込んでいきたい。
さらに、文書を丸々追加した場合は変更前のセルに「ー」を書き込み、変更後のセルに追加した文書を書き込みたい。現状のコードではズレが生じてしまう可能性がある。また、変更箇所の目標である+,-を削除するコードも必要である。
イメージ説明

部分的でも構いませんので、改善法をお持ちの方はご教示いただけますと幸いです。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

少し興味があったので、作ってみました。

python

1import difflib 2from docx import Document 3 4def get_diff(before, after): 5 text1 = before.replace("。","。\n").splitlines() 6 text2 = after.replace("。","。\n").splitlines() 7 g = difflib.unified_diff (text1, text2) 8 d = list(g) 9 10def make_before_after(difflist): 11 before_list = ['変更前'] 12 after_list = ['変更後'] 13 m_buf = [] 14 for x in difflist: 15 if (x[:3] == '+++') or (x[:3] == '---') or (x[:2] == '@@'): 16 continue 17 if x[:1] == '-': 18 m_buf.append(x[1:]) 19 elif x[:1] == '+': 20 if m_buf != []: 21 before_list.append(m_buf.pop(0)) 22 after_list.append(x[1:]) 23 else: 24 before_list.append('-') 25 after_list.append(x[1:]) 26 else: 27 while m_buf != []: 28 before_list.append(m_buf.pop(0)) 29 after_list.append('-') 30 else: 31 while m_buf != []: 32 before_list.append(m_buf.pop(0)) 33 after_list.append('-') 34 return before_list, after_list 35 36before = "吾輩(わがはい)は猫である。名前はまだ無い。どこで生れたかとんと見当(けんとう)がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪(どうあく)な種族であったそうだ。この書生というのは時々我々を捕(つかま)えて煮(に)て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌(てのひら)に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始みはじめであろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶(やかん)だ。その後(ご)猫にもだいぶ逢(あ)ったがこんな片輪(かたわ)には一度も出会でくわした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙(けむり)を吹く。どうも咽(む)せぽくて実に弱った。これが人間の飲む煙草(たばこ)というものである事はようやくこの頃知った。この書生の掌の裏(うち)でしばらくはよい心持に坐っておったが、しばらくすると非常な速力で運転し始めた。書生が動くのか自分だけが動くのか分らないが無暗(むやみ)に眼が廻る。胸が悪くなる。到底(とうてい)助からないと思っていると、どさりと音がして眼から火が出た。それまでは記憶しているがあとは何の事やらいくら考え出そうとしても分らない。" 37 38after = "吾輩(わがはい)は犬である。名前はまだ無い。どこで生れたかとんと見当(けんとう)がつかぬ。何でも薄暗いじめじめした所でニャーと泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪(どうあく)な種族であったそうだ。この書生というのは時々我々を捕(つかま)えて煮(に)て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌(てのひら)に乗せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始みはじめであろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶(やかん)だ。その後(ご)猫にもだいぶ逢(あ)ったがこんな片輪(かたわ)には一度も出会でくわした事がない。のみならず顔の真中があまりに突起している。そうしたらその穴の中から時々ぷくぷくと煙(けむり)を吹く。そして物語は続く。これが人間の飲む煙草(たばこ)というものである事はようやくこの頃知った。この書生の掌の裏(うち)でしばらくはよい心持に坐っていたが、しばらくすると非常な速力で運転し始めた。書生が動くのか自分だけが動くのか分らないが無暗(むやみ)に眼が廻る。到底(とうてい)助からないと思っていると、どさりと音がして眼から火が出た。それまでは記憶しているがあとは何の事やらいくら考え出そうとしても分らない。" 39 40docx_file = '変更対比表.docx' 41 42before_texts = before.replace("。","。\n").splitlines() 43after_texts = after.replace("。","。\n").splitlines() 44g = difflib.unified_diff (before_texts, after_texts) 45d = list(g) 46before_list, after_list = make_before_after(d) 47 48document = Document() 49table1 = document.add_table(rows=len(before_list), cols=2) 50for cell, text in zip(table1.columns[0].cells, before_list): 51 cell.text = text 52 53for cell, text in zip(table1.columns[1].cells, after_list): 54 cell.text = text 55 56document.save(docx_file)

実行結果は以下です。
イメージ説明

投稿2021/02/05 09:20

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tatsu757

2021/02/07 14:35

ご回答いただきありがとうございました! 素晴らしい解決方法でした。 1つ質問ですが、 else: while m_buf != []: before_list.append(m_buf.pop(0)) after_list.append('-') else: while m_buf != []: before_list.append(m_buf.pop(0)) after_list.append('-') と2回続けているのは何故でしょうか。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問