前提・実現したいこと
以下の参考記事に沿って
シソーラス距離(概念距離)をwordnetを使ってpythonで実装しようとしています。
参考記事
なお、参考記事ではpython2.7系で書かれていましたが、実行環境はPython 3.6.3です。
以下前回の質問で、コードと実現したいことはほぼ同じです。
前回の質問
具体的には
「人間とサルの類似度は0.5」というように数値を出したいです。
「人間とサルは0.5だった。」と記事に書いてある様に
0.5という数字をOutput.txtで出力したいです。
参考記事ではTagExamples.txtとWordExamples.txtは文字の羅列でしたが、
現在実行に用いているtxtファイルではTagExamples.txtに「人間」、WordExamples.txtに「サル」とそれぞれ1単語だけ書いています。
発生している問題・エラーメッセージ
$ python jwn_driver.py
と実行すると以下のエラーが出力されます。
Traceback (most recent call last): File "jwn_driver.py", line 10, in <module> simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成 File "/Users/username/Desktop/sim.py", line 38, in calcSim simMatrix[i,j] = max(sims) ValueError: max() arg is an empty sequence
参考記事に「入力用のfin1とfin2に取り込むファイルは、\n区切りの単語の羅列だが、取り込むファイルはterapadでutf-8nで書き出す(重要)。」とあったことも影響しているのかと考え、取り込むファイルをutf-8nで書き出そうとしているのですが、
Macでterapad(Windows)の代わりになるようなエディタはありますか。
該当のソースコード
sim.py
python
1# -*- coding: utf-8 -*- 2#英語WordNetから類似度を算出するモジュール 3import codecs 4 5def makeWordLists(fin1,fin2): 6 """ ファイル名を2つ受け取って単語リストのリストを返す """ 7 fins = [fin1, fin2] 8 wordLists = [[ ], [ ]] 9 for i in [0,1]: 10 f=codecs.open(fins[i], encoding="utf-8") 11 for line in f: 12 wordLists[i].append(line.strip("\r\n").strip("\n")) 13 f.close() 14 return wordLists 15 16def convWords2Synsets(wordList1, wordList2): 17 """ 単語リストを2つ受け取って概念リストのリストを返す """ 18 import jwn_corpusreader 19 from nltk.corpus.reader.wordnet import WordNetCorpusReader 20 jwn = WordNetCorpusReader('nltk_data/corpora/wordnet', 'wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する 21 synLists = [[ ],[ ]] 22 wordLists = [wordList1, wordList2] 23 for i in [0,1]: 24 for j in range(len(wordLists[i])): 25 synLists[i].append(jwn.synsets(wordLists[i][j])) 26 return synLists 27 28def calcSim(synList1,synList2): 29 """ 概念リストを2つ受け取って類似度の行列を返す """ 30 import numpy as np 31 simMatrix = np.zeros( (len(synList1), len(synList2))) 32 for i in range(len(synList1)): 33 for j in range(len(synList2)): 34 sims = [ ] 35 for syn1 in synList1[i]: 36 for syn2 in synList2[j]: 37 sims.append(syn1.path_similarity(syn2)) 38 simMatrix[i,j] = max(sims) 39 return simMatrix 40 41def writeSim(wordList1, wordList2, simMatrix,fout): 42 """ 単語リストを2つと類似度行列とファイル名を受け取ってファイルに出力する """ 43 f = codecs.open(fout,'w', encoding="utf-8") 44 for i in range(len(wordList1)): 45 for j in range(len(wordList2)): 46 f.write(wordList1[i] + "-" + wordList2[j] +": " + str(simMatrix[i][j])+"\r\n") 47 f.close() 48
jwn_driver.py
fin1 = 'TagExamples.txt' #入力ファイル1 fin2 = 'WordExamples.txt' #入力ファイル2 fout = 'Output.txt' #出力ファイル import sim wordLists = sim.makeWordLists(fin1,fin2) #単語リストを作成 synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成 sim.writeSim(wordLists[0],wordLists[1],simMatrix,fout) #ファイルへの書き込み
jwn_corpusreader.py
# -*- coding: utf-8 -*- """ 日本語リーダー """ from nltk.corpus.reader.wordnet import WordNetCorpusReader class JapaneseWordNetCorpusReader(WordNetCorpusReader): def __init__(self, root, filename): WordNetCorpusReader.__init__(self, root) import codecs f=codecs.open(filename, encoding="utf-8") self._jword2offset = {} for line in f: _cells = line.strip().split('\t') _offset_pos = _cells[0] _word = _cells[1] if len(_cells)>2: _tag = _cells[2] _offset, _pos = _offset_pos.split('-') try: self._jword2offset[_word].append({'offset': int(_offset), 'pos': _pos}) except: self._jword2offset[_word]=[{'offset': int(_offset), 'pos': _pos}] def synsets(self, word): if word in self._jword2offset: results = [ ] for offset in (self._jword2offset[word]): results.append(WordNetCorpusReader._synset_from_pos_and_offset( self, offset['pos'], offset['offset'] )) return results else: return None
試したこと
現在のテキストファイルはSublime Textで入力した後、拡張子を「.txt」に変更しました。
補足情報(FW/ツールのバージョンなど)
オペレーティングシステム名(os.name):Mac OS
Python Python 3.6.3
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/06/05 01:26
2018/06/05 01:32
退会済みユーザー
2018/06/05 12:03
退会済みユーザー
2018/06/05 12:03
退会済みユーザー
2018/06/06 00:45
2018/06/06 01:31
退会済みユーザー
2018/06/06 03:34
退会済みユーザー
2018/06/06 03:35
2018/06/06 04:06
退会済みユーザー
2018/06/06 04:36
2018/06/06 04:40
2018/06/06 04:44 編集
退会済みユーザー
2018/06/06 04:54
退会済みユーザー
2018/06/06 05:15
2018/06/06 11:54
退会済みユーザー
2018/06/07 04:23