前提・実現したいこと
以下の参考記事に沿って
シソーラス距離(概念距離)をwordnetを使ってpythonで実装しようとしています。
参考記事
発生している問題・エラーメッセージ
①参考記事ではpython2.7系で書かれていましたが、
実行環境はPython 3.6.3のため、print()以外に修正する箇所があればご指摘ただきたいです。
②参考記事に従い、以下5ファイルを同じフォルダ下に置いた上で
jwn_driver.pyを実行したところ、以下のエラーが表示されました。
どの様に修正すればいいでしょうか。
jwn_driver.py sim.py jwn_corpusreader.py TagExamples.txt #入力ファイル1 WordExamples.txt #入力ファイル2
エラー文
$ python jwn_driver.py Traceback (most recent call last): File "jwn_driver.py", line 9, in <module> synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 File "/Users/user/Desktop/wordnet/sim.py", line 20, in convWords2Synsets jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/wordnet.py", line 1080, in __init__ encoding=self._ENCODING) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/api.py", line 84, in __init__ root = FileSystemPathPointer(root) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/compat.py", line 221, in _decorator return init_func(*args, **kwargs) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/data.py", line 303, in __init__ raise IOError('No such file or directory: %r' % _path) OSError: No such file or directory: '/Users/username/Desktop/wordnet/C:/LyricsWorkspace/nltk_data/corpora/wordnet'
該当のソースコード
sim.py
python
1# -*- coding: utf-8 -*- 2#英語WordNetから類似度を算出するモジュール 3import codecs 4 5def makeWordLists(fin1,fin2): 6 """ ファイル名を2つ受け取って単語リストのリストを返す """ 7 fins = [fin1, fin2] 8 wordLists = [[ ], [ ]] 9 for i in [0,1]: 10 f=codecs.open(fins[i], encoding="utf-8") 11 for line in f: 12 wordLists[i].append(line.strip("\r\n").strip("\n")) 13 f.close() 14 return wordLists 15 16def convWords2Synsets(wordList1, wordList2): 17 """ 単語リストを2つ受け取って概念リストのリストを返す """ 18 import jwn_corpusreader 19 from nltk.corpus.reader.wordnet import WordNetCorpusReader 20 jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する 21 synLists = [[ ],[ ]] 22 wordLists = [wordList1, wordList2] 23 for i in [0,1]: 24 for j in range(len(wordLists[i])): 25 synLists[i].append(jwn.synsets(wordLists[i][j])) 26 return synLists 27 28def calcSim(synList1,synList2): 29 """ 概念リストを2つ受け取って類似度の行列を返す """ 30 import numpy as np 31 simMatrix = np.zeros( (len(synList1), len(synList2))) 32 for i in range(len(synList1)): 33 for j in range(len(synList2)): 34 sims = [ ] 35 for syn1 in synList1[i]: 36 for syn2 in synList2[j]: 37 sims.append(syn1.path_similarity(syn2)) 38 simMatrix[i,j] = max(sims) 39 return simMatrix 40 41def writeSim(wordList1, wordList2, simMatrix,fout): 42 """ 単語リストを2つと類似度行列とファイル名を受け取ってファイルに出力する """ 43 f = codecs.open(fout,'w', encoding="utf-8") 44 for i in range(len(wordList1)): 45 for j in range(len(wordList2)): 46 f.write(wordList1[i] + "-" + wordList2[j] +": " + str(simMatrix[i][j])+"\r\n") 47 f.close() 48
jwn_driver.py
python
1fin1 = 'TagExamples.txt' #入力ファイル1 2fin2 = 'WordExamples.txt' #入力ファイル2 3 4fout = 'Output.txt' #出力ファイル 5 6import sim 7 8wordLists = sim.makeWordLists(fin1,fin2) #単語リストを作成 9synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 10simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成 11sim.writeSim(wordLists[0],wordLists[1],simMatrix,fout) #ファイルへの書き込み
jwn_corpusreader.py
python
1# -*- coding: utf-8 -*- 2""" 3日本語リーダー 4""" 5from nltk.corpus.reader.wordnet import WordNetCorpusReader 6class JapaneseWordNetCorpusReader(WordNetCorpusReader): 7 def __init__(self, root, filename): 8 WordNetCorpusReader.__init__(self, root) 9 import codecs 10 f=codecs.open(filename, encoding="utf-8") 11 self._jword2offset = {} 12 for line in f: 13 _cells = line.strip().split('\t') 14 _offset_pos = _cells[0] 15 _word = _cells[1] 16 if len(_cells)>2: _tag = _cells[2] 17 _offset, _pos = _offset_pos.split('-') 18 try: 19 self._jword2offset[_word].append({'offset': int(_offset), 'pos': _pos}) 20 except: 21 self._jword2offset[_word]=[{'offset': int(_offset), 'pos': _pos}] 22 def synsets(self, word): 23 if word in self._jword2offset: 24 results = [ ] 25 for offset in (self._jword2offset[word]): 26 results.append(WordNetCorpusReader._synset_from_pos_and_offset( 27 self, offset['pos'], offset['offset'] 28 )) 29 return results 30 else: 31 return None
補足情報(FW/ツールのバージョンなど)
オペレーティングシステム名(os.name):Mac OS
Python Python 3.6.3
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/06/03 12:18
2018/06/03 12:47
退会済みユーザー
2018/06/03 13:21
2018/06/03 15:46
退会済みユーザー
2018/06/03 22:21
2018/06/03 22:43
退会済みユーザー
2018/06/04 03:10
2018/06/04 03:52
退会済みユーザー
2018/06/04 04:10
2018/06/04 04:22
退会済みユーザー
2018/06/04 06:32
2018/06/04 06:40
退会済みユーザー
2018/06/04 13:24
2018/06/04 13:25