こちらで下のようなデータベースがあります。
このデータベース(この質問の最下部)を元に、類似する単語同士をグループ化して出力したいと考えています。
たとえば、
accent, access
aggression, congression, regression
avenue, revenue
band, bond
border, burden(離れた1文字違いが2箇所)
bash, cash, dash, hash
complain, complaint
era, erase
を自動的に判定できるような(例えば上のようなフォーマットで出力可能な)プログラムを作成したいと思います。
For文を使えば、Javaでもできそうかとはおもうのですが、Pythonなどは自然言語処理に強いというお話を聞きました。
特に「(離れた1文字違いが2箇所)」を判別することまでできるのかどうかについては関心があります。
処理に用いるプログラミング言語は何でも構いません。
よろしくお願いいたします。
下記はMySQLとなっておりますが、DBの種類が別でも構いません。
MySQL
1absence 2accent 3access 4aggression 5avenue 6band 7bash 8bond 9border 10burden 11campaign 12candidate 13cash 14colleague 15colony 16committee 17companion 18complain 19complaint 20confusion 21congression 22courage 23crash 24critic 25dash 26description 27disadvantage 28ecology 29editor 30emotion 31equality 32era 33erase 34harm 35hash 36mediator 37motion 38prescription 39recess 40refusion 41regression 42revenue 43
回答4件
あなたの回答
tips
プレビュー