質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

1064閲覧

シソーラス距離(概念距離)をwordnetを使ってpythonで実装する方法について

退会済みユーザー

退会済みユーザー

総合スコア0

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

1クリップ

投稿2018/06/03 10:24

編集2018/06/04 04:08

前提・実現したいこと

以下の参考記事に沿って
シソーラス距離(概念距離)をwordnetを使ってpythonで実装しようとしています。
参考記事

発生している問題・エラーメッセージ

①参考記事ではpython2.7系で書かれていましたが、
実行環境はPython 3.6.3のため、print()以外に修正する箇所があればご指摘ただきたいです。

②参考記事に従い、以下5ファイルを同じフォルダ下に置いた上で
jwn_driver.pyを実行したところ、以下のエラーが表示されました。
どの様に修正すればいいでしょうか。

jwn_driver.py sim.py jwn_corpusreader.py TagExamples.txt  #入力ファイル1 WordExamples.txt #入力ファイル2

エラー文

$ python jwn_driver.py Traceback (most recent call last): File "jwn_driver.py", line 9, in <module> synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 File "/Users/user/Desktop/wordnet/sim.py", line 20, in convWords2Synsets jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/wordnet.py", line 1080, in __init__ encoding=self._ENCODING) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/api.py", line 84, in __init__ root = FileSystemPathPointer(root) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/compat.py", line 221, in _decorator return init_func(*args, **kwargs) File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/data.py", line 303, in __init__ raise IOError('No such file or directory: %r' % _path) OSError: No such file or directory: '/Users/username/Desktop/wordnet/C:/LyricsWorkspace/nltk_data/corpora/wordnet'

該当のソースコード

sim.py

python

1# -*- coding: utf-8 -*- 2#英語WordNetから類似度を算出するモジュール 3import codecs 4 5def makeWordLists(fin1,fin2): 6 """ ファイル名を2つ受け取って単語リストのリストを返す """ 7 fins = [fin1, fin2] 8 wordLists = [[ ], [ ]] 9 for i in [0,1]: 10 f=codecs.open(fins[i], encoding="utf-8") 11 for line in f: 12 wordLists[i].append(line.strip("\r\n").strip("\n")) 13 f.close() 14 return wordLists 15 16def convWords2Synsets(wordList1, wordList2): 17 """ 単語リストを2つ受け取って概念リストのリストを返す """ 18 import jwn_corpusreader 19 from nltk.corpus.reader.wordnet import WordNetCorpusReader 20 jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する 21 synLists = [[ ],[ ]] 22 wordLists = [wordList1, wordList2] 23 for i in [0,1]: 24 for j in range(len(wordLists[i])): 25 synLists[i].append(jwn.synsets(wordLists[i][j])) 26 return synLists 27 28def calcSim(synList1,synList2): 29 """ 概念リストを2つ受け取って類似度の行列を返す """ 30 import numpy as np 31 simMatrix = np.zeros( (len(synList1), len(synList2))) 32 for i in range(len(synList1)): 33 for j in range(len(synList2)): 34 sims = [ ] 35 for syn1 in synList1[i]: 36 for syn2 in synList2[j]: 37 sims.append(syn1.path_similarity(syn2)) 38 simMatrix[i,j] = max(sims) 39 return simMatrix 40 41def writeSim(wordList1, wordList2, simMatrix,fout): 42 """ 単語リストを2つと類似度行列とファイル名を受け取ってファイルに出力する """ 43 f = codecs.open(fout,'w', encoding="utf-8") 44 for i in range(len(wordList1)): 45 for j in range(len(wordList2)): 46 f.write(wordList1[i] + "-" + wordList2[j] +": " + str(simMatrix[i][j])+"\r\n") 47 f.close() 48

jwn_driver.py

python

1fin1 = 'TagExamples.txt' #入力ファイル1 2fin2 = 'WordExamples.txt' #入力ファイル2 3 4fout = 'Output.txt' #出力ファイル 5 6import sim 7 8wordLists = sim.makeWordLists(fin1,fin2) #単語リストを作成 9synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 10simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成 11sim.writeSim(wordLists[0],wordLists[1],simMatrix,fout) #ファイルへの書き込み

jwn_corpusreader.py

python

1# -*- coding: utf-8 -*- 2""" 3日本語リーダー 4""" 5from nltk.corpus.reader.wordnet import WordNetCorpusReader 6class JapaneseWordNetCorpusReader(WordNetCorpusReader): 7 def __init__(self, root, filename): 8 WordNetCorpusReader.__init__(self, root) 9 import codecs 10 f=codecs.open(filename, encoding="utf-8") 11 self._jword2offset = {} 12 for line in f: 13 _cells = line.strip().split('\t') 14 _offset_pos = _cells[0] 15 _word = _cells[1] 16 if len(_cells)>2: _tag = _cells[2] 17 _offset, _pos = _offset_pos.split('-') 18 try: 19 self._jword2offset[_word].append({'offset': int(_offset), 'pos': _pos}) 20 except: 21 self._jword2offset[_word]=[{'offset': int(_offset), 'pos': _pos}] 22 def synsets(self, word): 23 if word in self._jword2offset: 24 results = [ ] 25 for offset in (self._jword2offset[word]): 26 results.append(WordNetCorpusReader._synset_from_pos_and_offset( 27 self, offset['pos'], offset['offset'] 28 )) 29 return results 30 else: 31 return None

補足情報(FW/ツールのバージョンなど)

オペレーティングシステム名(os.name):Mac OS
Python Python 3.6.3

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

とりあえずはインデントが変というエラーなので、出ている箇所のインデントを周りと同じにすれば解決するはずですね。

sim.pyのインデントとコーディングスタイルが気持ち悪いので(スペース2コ単位か・・・)、まるごと整えるもよし、妥協してそのままにするもよしです。

投稿2018/06/03 11:25

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/06/03 12:18

ご回答いただきましてありがとうございます。 インデントを修正いたしましたところ、エラー文が変わりました。 今回はインデントとは異なるエラーの様ですが、再度質問し直した方が良いでしょうか。
hayataka2049

2018/06/03 12:47

この質問をそのまま使って、質問文に追記すれば別に構いませんよ
退会済みユーザー

退会済みユーザー

2018/06/03 13:21

お返事いただきましてありがとうございます。 エラー文を最新のものに変更いたしました。 何卒よろしくお願いいたします。
hayataka2049

2018/06/03 15:46

元ネタの記事が書かれて以降に、WordNetCorpusReaderにomw_readerという引数が追加されたようです。 http://docs.huihoo.com/nltk/3.0/api/nltk.corpus.reader.html#nltk.corpus.reader.wordnet.WordNetCorpusReader これが多言語対応のための措置なので、記事が書かれた頃とは日本語wordnetの使い方もいろいろ変わっていると思います。 nltkの情報がネット上に少なくて泣けるんですが、なんかこういうことらしいです https://books.google.co.jp/books?id=t5NDDwAAQBAJ&pg=PA183&lpg=PA183&dq=nltk+%E6%97%A5%E6%9C%AC%E8%AA%9Ewordnet&source=bl&ots=PWNqM0cLIB&sig=xJWcFGjol4IMXw_v_1MRgvfLs9Q&hl=ja&sa=X&ved=0ahUKEwjr5pyk67fbAhUCpJQKHepuA-g4ChDoAQgnMAA#v=onepage&q=nltk%20%E6%97%A5%E6%9C%AC%E8%AA%9Ewordnet&f=false
退会済みユーザー

退会済みユーザー

2018/06/03 22:21

ご回答いただきましてありがとうございます。 omw_readerという引数を含めてどの様にコードを修正すればいいのでしょうか。 ご紹介いただいたnltk 日本語wordnetに関する書籍のコードに沿って、質問のコードjwn_corpusreader.pyを修正する必要があるという理解で正しいでしょうか。
hayataka2049

2018/06/03 22:43

悲しいことに情報がないので、正直よくわからないです。 山勘半分で書いてますが、おそらく自前でクラスを定義する必要はなくなっていて、 jwn = jwn_corpusreader.JapaneseWordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する のところを jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する でなんとかなりませんかねぇ・・・
退会済みユーザー

退会済みユーザー

2018/06/04 03:10

ご回答いただきましてありがとうございます。 sim.pyのjwnの部分を変更させていただきました、 以下の様にエラー文が出た様です。 Traceback (most recent call last): File "jwn_driver.py", line 9, in <module> synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成 File "/Users/username/Desktop/wordnet/sim.py", line 19, in convWords2Synsets jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する NameError: name 'WordNetCorpusReader' is not defined お手数おかけしますが、もし修正方法をご存知の場合、お返事いただけましたら幸いです。
hayataka2049

2018/06/04 03:52

そっちのスクリプトではWordNetCorpusReaderをimportしていないと思うので、importしてあげてくださいな
退会済みユーザー

退会済みユーザー

2018/06/04 04:10

お返事いただきましてありがとうございます。質問を修正し、エラー文と修正したコードを掲載しました。こちらのコメント欄に入力すると長くなりそうだlったため、お手数ですが上の質問欄をご確認いただけますようお願いします。
hayataka2049

2018/06/04 04:22

それはファイルの場所を指定するので、元記事のコピーそのままだと動きません。wordnetのファイルの場所を適切に指定してくださいな
退会済みユーザー

退会済みユーザー

2018/06/04 06:32

Traceback (most recent call last): File "jwn_driver.py", line 10, in <module> simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成 File "/Users/username/Desktop/sim.py", line 38, in calcSim simMatrix[i,j] = max(sims) ValueError: max() arg is an empty sequence 正しい場所に配置したところ、このようなエラーに変わりました。 参考記事に「入力用のfin1とfin2に取り込むファイルは、\n区切りの単語の羅列だが、取り込むファイルはterapadでutf-8nで書き出す(重要)。」とあったことも影響しているのでしょうか。
hayataka2049

2018/06/04 06:40

とりあえずsimsが空ということはわかるので、ということは for syn1 in synList1[i]: for syn2 in synList2[j]: sims.append(syn1.path_similarity(syn2)) の三行のループがまったく回っていないことも確実なので、あとはその線で入力データの形が正しいのかどうかチェックですねー
退会済みユーザー

退会済みユーザー

2018/06/04 13:24

WindowsだとTerapadで変換できるようですが、Macはutf-8nでtxtファイルを書き出すにはどの様にすればいいのでしょうか。
hayataka2049

2018/06/04 13:25

私もmacは詳しくないので・・・すみません・・・
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問