質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

5263閲覧

csvファイルから読み込んだデータを総当たりで比較する処理のエラー

退会済みユーザー

退会済みユーザー

総合スコア0

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2018/06/20 08:40

編集2018/06/21 04:49

前提・実現したいこと

Pythonで単語が1列に書いてあるcsvファイルを読み込み、
各単語間の類似度を計算してその数値を表示するプログラムを書いています。
類似度が一定数以上の組み合わせを出力したいです。

質問内容としては前回の質問とほぼ同じです。
前回は実現したいことの前に問題があり、そこを修正することに時間がかかり、
完全には至らなかったので修正した上で再度質問させていただきます。

sample.csv

りんご いぬ いちご くま みかん ねこ

出力したい結果(数値は仮)

りんご - いちご 0.3 いぬ - ねこ 0.3 ...

発生している問題・エラーメッセージ

#りんごーいぬ、りんごーいちご、りんごーくま、りんごーみかん、りんごーねこ #いぬーいちご、いぬーくま、いぬーみかん、いぬーねこ #いちごーくま、いちごーみかん、いちごーねこ #くまーみかん、くまーねこ #みかんーねこ

のように順に比較するためには、エラーも含め現状のコードをどのように修正すべきでしょうか。
アドバイスをいただきたいです。

--------------------------------------------------------------------------- IndexError Traceback (most recent call last) <ipython-input-14-351589476c7a> in <module>() 9 for j in range(1, len(data)-1): 10 w1_word = data[i] ---> 11 w1_syn = wn.synsets(w1_word, lang='jpn')[0] 12 w2_word = data[j] 13 w2_syn = wn.synsets(w2_syn, lang='jpn')[0] IndexError: list index out of range

該当のソースコード

python

1import csv 2f = open("sample.csv", encoding='utf-8' ) 3lines = f.readlines() 4 5dataset1= pd.read_csv('sample.csv', header=None) 6dataset1 7 8for datum in data: 9 ret = wn.synsets(datum, lang='jpn') 10 if ret: 11 data_with_syn.append((datum, ret[0])) 12 continue 13 14 datum = hira2kata(datum) 15 ret = wn.synsets(datum, lang='jpn') 16 if ret: 17 data_with_syn.append((datum, ret[0])) 18 continue 19 20 print(f'Unknown word: {datum}.') 21 22print(*data_with_syn, sep='\n') 23 24#1行目からlen(data)まで比較、2行目からlen(data)まで比較する 25#りんごーいぬ、りんごーいちご、りんごーくま、りんごーみかん、りんごーねこ 26#いぬーいちご、いぬーくま、いぬーみかん、いぬーねこ 27#いちごーくま、いちごーみかん、いちごーねこ 28#くまーみかん、くまーねこ 29#みかんーねこ 30from nltk.corpus import wordnet as wn 31for i in range(0, len(data)-2): 32 for j in range(1, len(data)-1): 33 w1_word = data[i] 34 w1_syn = wn.synsets(w1_word, lang='jpn')[0] 35 w2_word = data[j] 36 w2_syn = wn.synsets(w2_syn, lang='jpn')[0] 37 similarity = w1_syn.path_similarity(w2_syn) 38 if similarity > 0.3: 39 print( data[i] + '-' + data[j] + similarity) 40 41

###ご回答を受けて、追加で聞きたいこと
itertools.combinationsを使うと、
組み合わせを一覧で出すことが可能ですが、

('りんご', 'いぬ') ('りんご', 'いちご') ('りんご', 'くま') ('りんご', 'みかん') ('りんご', 'ねこ') ('いぬ', 'りんご') ('いぬ', 'いちご') ('いぬ', 'くま') ('いぬ', 'みかん') ('いぬ', 'ねこ') ('いちご', 'りんご') ('いちご', 'いぬ') ('いちご', 'くま') ('いちご', 'みかん') ('いちご', 'ねこ')

のように自分自身は除いて、
他の要素すべてと組み合わせる方法はどうすればいいのでしょうか。

補足情報(FW/ツールのバージョンなど)

Python 3.6.3
Mac OS High Sierra
Jupyter notebook 5.0.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

itertools.combinationsを使ってください。

python

1from itertools import combinations 2 3lst = ["りんご", "いぬ", "いちご", "くま", "みかん", "ねこ"] 4 5for x in combinations(lst, 2): 6 print(x) 7 8""" => 9('りんご', 'いぬ') 10('りんご', 'いちご') 11('りんご', 'くま') 12('りんご', 'みかん') 13('りんご', 'ねこ') 14('いぬ', 'いちご') 15('いぬ', 'くま') 16('いぬ', 'みかん') 17('いぬ', 'ねこ') 18('いちご', 'くま') 19('いちご', 'みかん') 20('いちご', 'ねこ') 21('くま', 'みかん') 22('くま', 'ねこ') 23('みかん', 'ねこ') 24"""

10.1. itertools — 効率的なループ実行のためのイテレータ生成関数 — Python 3.6.5 ドキュメント #itertools.combinations

投稿2018/06/20 09:09

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/06/21 03:01

ご回答いただきましてありがとうございます。 今回の場合ですと、xに('りんご', 'いぬ')とそれぞれ別で計算したい要素が1つにまとまってしまうという問題は、どのように回避できるでしょうか。
Untitled_Sample

2018/06/21 03:56

落ち着け。まだ、あわあわ照するときじゃない。 print(x[0],x[1]) に変更して確認
退会済みユーザー

退会済みユーザー

2018/06/21 04:30

Sample_Testさん、ありがとうございます。解決しました。
退会済みユーザー

退会済みユーザー

2018/06/21 04:50

ご回答を受けて、追加で聞きたいことを明記さしていただきました。 もしご存知でしたら教えていただけますと幸いです。
退会済みユーザー

退会済みユーザー

2018/06/22 03:09

ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問