重複する文字を削除し、一文にまとめる(新たな疑問点)

前回、「重複する文字を削除し、一文にまとめる」方法をこのサイトで教えて頂きました。

色々と試していて新たな疑問が生じました。

以下の条件であれば、前回教えて頂いたスクリプトで完全に読めます。
【完成形】
I'm KITA high school student.

【不完全な文章】
I'm KITA high schoo
m KITA high school st
ITA high school stu
high school stude
school student.

しかしながら、既に出現している文字が更に出てくると、上書きされてしまいます。
完成形は変わらないのですが、以下条件で完成形にするにはどうすればいいのでしょうか。
【完成形】
I'm KITA high school student.

【不完全な文章】
I'm KITA high schoo
m KITA high school st
ITA high school stu
high school student.　　(← 4番目で分の最後まで到達している)
KITA high sc　　(← 既に出ている文に被っている)

【以前教えて頂いたコード】

python
1from difflib import SequenceMatcher
2
3text = ["I'm KITA high schoo",
4        "m KITA high school st",
5        "ITA high school stu",
6        "high school stude",
7        "school student."]
8
9
10def concat_by_common(t1, t2):
11    matcher = SequenceMatcher(a=t1, b=t2, autojunk=False)
12    # 最も長い共通部分を探す。
13    ai, bi, size = matcher.find_longest_match(0, len(t1), 0, len(t2))
14    # 共通部分で文字列を結合する。
15    concat = t1[:ai] + t1[ai:ai + size] + t2[bi + size:]
16
17    return concat
18
19
20ret = text[0]
21for t in text[1:]:
22    ret = concat_by_common(ret, t)
23print(ret)  # I'm KITA high school student.

行動規範の内容に同意します

回答1件

新規の文字列がない場合は結合しないでそのまま返せばよいのではないでしょうか。

python
1from difflib import SequenceMatcher
2
3text = ["I'm KITA high schoo",
4        "m KITA high school st",
5        "ITA high school stu",
6        "high school stude",
7        "school student.",
8        "KITA high sc",
9        "I'm KITA high schoo",
10        "KITA high",
11        "I'm KITA",
12        "school student."]
13
14
15def concat_by_common(t1, t2):
16    matcher = SequenceMatcher(a=t1, b=t2, autojunk=False)
17    # 最も長い共通部分を探す。
18    ai, bi, size = matcher.find_longest_match(0, len(t1), 0, len(t2))
19    # 共通部分で文字列を結合する。
20    print(t1, '|', t2)
21    print('==> {}| {}|{}'.format(t1[:ai], t1[ai:ai + size], t2[bi + size:]))
22    if t2[bi + size:]:
23        return t1[:ai + size] + t2[bi + size:]
24    else:
25        return t1
26
27
28ret = text[0]
29for t in text[1:]:
30    ret = concat_by_common(ret, t)
31print(ret)  # I'm KITA high school student.