python、正規表現、不特定の同じ単語の繰り返しを抽出したい。

前提・実現したいこと

不特定の同じ単語の繰り返しを抽出したいです。

textの例
text1 = "honPythonPythonPythonPythonPyt"
text2 = "Python123Python12PythonPythonPython"
text3 = "Python1234565aaanohtyPPy"
text4 = "テキストてきすとDjangoDjangoDjangoDjangoあPythonあ"
text5 = "PythonPythonPythonとDjangoDjangoDjangoあいうえお"

text1は、Pythonという単語が4回繰り返されているので、Pythonという単語を抽出し4を返したいです。
text2は、Pythonという単語が5回使われていますが、連続で使われているのは最後の3回なので3を返したいです。
text3は、aaa、PPが連続しているので、aaaを抽出し3を返し、PPを抽出し2を返したいです。
text4は、途中でDjangoという単語が4回繰り返されているのでDjangoを抽出し、4を返したいです。
text5は、PythonとDjangoがそれぞれ3回繰り返されているので、Python、Djangoを抽出し3を返したいです。

text1～text5をそれぞれ解決できるコードではなく、まとめて1つの関数で解決できるようにしたいです。
解決策は、正規表現でなくとも、ライブラリ等でも何でも構いません。

どなたかお分かりになる方ご教示いただけますと幸いです。
宜しくお願いします。

退会済みユーザー

2021/02/04 03:54 編集

質問に記載の例では「テキストの中には、繰り返しとなる単語のみが含まれており、その単語が単純に繰り返されているだけであり、その他の文字や、繰り返しの単語の一部が半端に含まれていない」ように見えるのですが、そのような理解でよろしいでしょうか。より具体的にいえば、与えるtextが下記のようなパターン 1.「honPythonPythonPythonPythonPyt」（途中から繰り返しが現れる）や 2.「Python123Python12PythonPythonPython」（繰り返しの間に不定の文字が含まれている）や 3.「Python1234565aaanohtyPPy」のような形は考慮しなくてよいのか、ということです。また、仮に3の場合も考慮しなければならない場合「どのような結果を返すべきか」の仕様が不明確です。

ppaul

2021/02/04 04:01 編集

単語は指定せずに探したいという意味なのですね。

hiranohirano

2021/02/04 03:59

ご回答ありがとうございます。たしかにそうでした。1.2.のようなパターンを考慮した場合を想定しています。質問がわかりづらかったので修正致します。

hiranohirano

2021/02/04 04:20

ppaulさん、ご回答ありがとうございます。はい、仰る通りです。質問がわかりづらくてすいません。編集させていただきました。

退会済みユーザー

2021/02/04 04:26 編集

質問が修正されたので削除

hiranohirano

2021/02/04 04:35

qnoirさん、質問へのご指摘ありがとうございました。私のしたかったことは実現できました。この度はご回答いただきありがとうございました！

行動規範の内容に同意します

回答2件

ベストアンサー

Python
1text = "PythonPythonPythonPythonPython  RubyRuby"
2
3for m in re.finditer(r"(\S+?)\1+",text):
4    print(f"'{m[1]}' の繰り返しが {len(m[0])//len(m[1])}回")