似た単語をリストアップしたい（プログラミング言語不問）

こちらで下のようなデータベースがあります。

このデータベース（この質問の最下部）を元に、類似する単語同士をグループ化して出力したいと考えています。
たとえば、

accent, access
aggression, congression, regression
avenue, revenue
band, bond
border, burden（離れた1文字違いが2箇所）
bash, cash, dash, hash
complain, complaint
era, erase

を自動的に判定できるような（例えば上のようなフォーマットで出力可能な）プログラムを作成したいと思います。
For文を使えば、Javaでもできそうかとはおもうのですが、Pythonなどは自然言語処理に強いというお話を聞きました。
特に「（離れた1文字違いが2箇所）」を判別することまでできるのかどうかについては関心があります。
処理に用いるプログラミング言語は何でも構いません。
よろしくお願いいたします。

下記はMySQLとなっておりますが、DBの種類が別でも構いません。

MySQL
1absence
2accent
3access
4aggression
5avenue
6band
7bash
8bond
9border
10burden
11campaign
12candidate
13cash
14colleague
15colony
16committee
17companion
18complain
19complaint
20confusion
21congression
22courage
23crash
24critic
25dash
26description
27disadvantage
28ecology
29editor
30emotion
31equality
32era
33erase
34harm
35hash
36mediator
37motion
38prescription
39recess
40refusion
41regression
42revenue
43

yambejp

2019/06/13 01:10

band, bondが1文字違いだから似ていると言うなら aとoも1文字違いで似ています「類似する」をどのくらいまで拡張するのか定義が必要です

Zuishin

2019/06/13 01:36

例えば abcd abef ghef の三種類の単語が対象の場合、1 番目と 2 番目は 2 文字違いで、2 番目と 3 番目も 2 文字違いです。しかし、1 番目と 3 番目は 4 文字違いです。この場合、1 番目と 3 番目は全文字違っているので同じグループには入れられません。では 2 番目はどのグループに入れるべきでしょうか？もう一度目的を分析して仕様を見直してください。グループ化で目的が達成できますか？

行動規範の内容に同意します

回答4件

ベストアンサー

レーベンシュタイン距離（レーベンシュタインきょり、英: Levenshtein distance）は、二つの文字列がどの程度異なっているかを示す距離の一種である。

レーベンシュタイン距離 - Wikipedia

ライブラリが存在するようです。　
編集距離 (Levenshtein Distance)をpython で求める - Qiita
ですが、総当りする必要があるでしょうから、うまく枝刈りなどをしないと計算量が爆発するかもしれません。

投稿2019/06/13 01:29

Lhankor_Mhy

総合スコア36115

tiqua_nibio

2019/06/17 00:42

いろいろとありがとうございます。とても参考になりました。

Lhankor_Mhy

2019/06/17 00:51

ご質問者のご判断にケチをつけるわけではないのですが、個人的にはクラスタリングに触れているhayataka2049さんがBAだと思います。

行動規範の内容に同意します

結果の善し悪しは別として、これくらいのコードでそこそこの結果は得られます。

python
1from collections import defaultdict
2
3from sklearn.feature_extraction.text import CountVectorizer
4from sklearn.cluster import KMeans
5
6with open("data.txt") as f:
7    data = f.read().splitlines()
8
9cv = CountVectorizer(analyzer="char", ngram_range=(1, 3),
10                     min_df=0.05)
11X = cv.fit_transform(data)
12
13km = KMeans(n_clusters=12)
14y = km.fit_predict(X)
15
16result = defaultdict(list)
17for word, label in zip(data, y):
18    result[label].append(word)
19
20for group in result.values():
21    print(*group, sep=", ")
22
23""" =>
24accent, access, recess
25emotion, motion
26band, bond, border, courage, era, erase, harm
27aggression, congression, regression
28campaign, companion, complain, complaint
29colleague, colony, ecology
30committee, critic, editor, equality, mediator
31bash, cash, crash, dash, hash
32description, prescription
33absence, avenue, burden, revenue
34candidate, disadvantage
35confusion, refusion
36"""
37