質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1744閲覧

Python 類似度の検索をCSVファイルから求めたい

yamaneno

総合スコア0

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/06/22 14:08

初めての質問なのでルールやマナー違反があればすみません。

前提・実現したいこと

a.csv / b.csvのような 2枚のCSVを読み込みa.csvのキーワード列のワードを上から順番にb.csvの参考列の中から最も類似度の高いものを抽出しa.csvの類似列に書き出したいのですが、取り掛かりがわからない状態です。
自力で作ろうにもネットなどで調べてもどのようなライブラリが必要で自作に向けてどのように勉強を進めていけばもわからない状態です。ヒントと参考になるからこれを読んでみなというようなものがあれば教えていただきたいです。
宜しくお願いします。

[a.csv]

キーワード,類似
りんご,
いぬ,
いちご,
くま,
みかん,
ねこ,

[b.csv]

参考,
りんこ,
りかこ,
らんご,
うんこ,
さんご,
くまんご,
みけん,
みこん,
ねっく,
むこ,
ぬこ,

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

csvの入出力にはpandasを使うのが一番楽でしょう。

類似度については、「いか」に最も似ているのは「いが」なのか、「いかだ」なのか、「やりいか」なのかというのはyamanenoさんが何をやりたいかによるのでなんともいえません。

参考を見る限り、意味的な類似度よりは文字列としての類似度のようですね。だとすると、その部分は自分で作るしかないように思えます。

投稿2021/06/22 14:32

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yamaneno

2021/06/23 00:37

ありがとうございます。pandasは調べたらいろいろできそうで早速勉強します。 意味的な類似度の場合は何かライブラリがあるのでしょうか? また「自分で作る」とはどういう意味でしょうか? よかったら教えてください。よろしくお願いします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問