質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.33%

  • Python

    9209questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    7401questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Python 2.7

    1343questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • 機械学習

    765questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

  • 自然言語処理

    138questions

    自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

シソーラス距離(概念距離)をwordnetを使ってpythonで実装する方法について

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 861

tenjin

score 216

 前提・実現したいこと

以下の参考記事に沿って
シソーラス距離(概念距離)をwordnetを使ってpythonで実装しようとしています。
参考記事

 発生している問題・エラーメッセージ

①参考記事ではpython2.7系で書かれていましたが、
実行環境はPython 3.6.3のため、print()以外に修正する箇所があればご指摘ただきたいです。

②参考記事に従い、以下5ファイルを同じフォルダ下に置いた上で
jwn_driver.pyを実行したところ、以下のエラーが表示されました。
どの様に修正すればいいでしょうか。

jwn_driver.py
sim.py
jwn_corpusreader.py
TagExamples.txt  #入力ファイル1
WordExamples.txt #入力ファイル2

エラー文

$ python jwn_driver.py
Traceback (most recent call last):
  File "jwn_driver.py", line 9, in <module>
    synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成
  File "/Users/user/Desktop/wordnet/sim.py", line 20, in convWords2Synsets
    jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する
  File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/wordnet.py", line 1080, in __init__
    encoding=self._ENCODING)
  File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/corpus/reader/api.py", line 84, in __init__
    root = FileSystemPathPointer(root)
  File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/compat.py", line 221, in _decorator
    return init_func(*args, **kwargs)
  File "/Users/username/.pyenv/versions/anaconda3-5.0.1/lib/python3.6/site-packages/nltk/data.py", line 303, in __init__
    raise IOError('No such file or directory: %r' % _path)
OSError: No such file or directory: '/Users/username/Desktop/wordnet/C:/LyricsWorkspace/nltk_data/corpora/wordnet'

 該当のソースコード

sim.py

# -*- coding: utf-8 -*-
#英語WordNetから類似度を算出するモジュール
import codecs

def makeWordLists(fin1,fin2):
  """ ファイル名を2つ受け取って単語リストのリストを返す """
  fins = [fin1, fin2]
  wordLists = [[ ], [ ]]
  for i in [0,1]:
    f=codecs.open(fins[i], encoding="utf-8")
    for line in f:
      wordLists[i].append(line.strip("\r\n").strip("\n"))
    f.close()
  return wordLists

def convWords2Synsets(wordList1, wordList2):
  """ 単語リストを2つ受け取って概念リストのリストを返す """
  import jwn_corpusreader
  from nltk.corpus.reader.wordnet import WordNetCorpusReader
  jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する
  synLists = [[ ],[ ]]
  wordLists = [wordList1, wordList2]
  for i in [0,1]:
    for j in range(len(wordLists[i])):
      synLists[i].append(jwn.synsets(wordLists[i][j]))
  return synLists

def calcSim(synList1,synList2):
  """ 概念リストを2つ受け取って類似度の行列を返す """
  import numpy as np
  simMatrix = np.zeros( (len(synList1), len(synList2)))
  for i in range(len(synList1)):
    for j in range(len(synList2)):
      sims = [ ]
      for syn1 in synList1[i]:
        for syn2 in synList2[j]:
            sims.append(syn1.path_similarity(syn2))
      simMatrix[i,j] = max(sims)
  return simMatrix

def writeSim(wordList1, wordList2, simMatrix,fout):
  """ 単語リストを2つと類似度行列とファイル名を受け取ってファイルに出力する """
  f = codecs.open(fout,'w', encoding="utf-8")
  for i in range(len(wordList1)):
    for j in range(len(wordList2)):
      f.write(wordList1[i] + "-" + wordList2[j] +": " + str(simMatrix[i][j])+"\r\n")
  f.close()

jwn_driver.py

fin1 = 'TagExamples.txt' #入力ファイル1
fin2 = 'WordExamples.txt' #入力ファイル2

fout = 'Output.txt' #出力ファイル

import sim

wordLists = sim.makeWordLists(fin1,fin2) #単語リストを作成
synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成
simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成
sim.writeSim(wordLists[0],wordLists[1],simMatrix,fout) #ファイルへの書き込み

jwn_corpusreader.py

# -*- coding: utf-8 -*-
"""
日本語リーダー
""" 
from nltk.corpus.reader.wordnet import WordNetCorpusReader
class JapaneseWordNetCorpusReader(WordNetCorpusReader):
    def __init__(self, root, filename):
        WordNetCorpusReader.__init__(self, root)
        import codecs
        f=codecs.open(filename, encoding="utf-8")
        self._jword2offset = {}
        for line in f:
            _cells = line.strip().split('\t')
            _offset_pos = _cells[0]
            _word = _cells[1]
            if len(_cells)>2: _tag = _cells[2]
            _offset, _pos = _offset_pos.split('-')
            try:
              self._jword2offset[_word].append({'offset': int(_offset), 'pos': _pos})
            except:
              self._jword2offset[_word]=[{'offset': int(_offset), 'pos': _pos}]
    def synsets(self, word):
        if word in self._jword2offset:
            results = [ ]
            for offset in (self._jword2offset[word]):
                results.append(WordNetCorpusReader._synset_from_pos_and_offset(
                self, offset['pos'], offset['offset']
                ))
            return results
        else:
            return None

 補足情報(FW/ツールのバージョンなど)

オペレーティングシステム名(os.name):Mac OS
Python Python 3.6.3

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

とりあえずはインデントが変というエラーなので、出ている箇所のインデントを周りと同じにすれば解決するはずですね。

sim.pyのインデントとコーディングスタイルが気持ち悪いので(スペース2コ単位か・・・)、まるごと整えるもよし、妥協してそのままにするもよしです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/03 21:18

    ご回答いただきましてありがとうございます。
    インデントを修正いたしましたところ、エラー文が変わりました。
    今回はインデントとは異なるエラーの様ですが、再度質問し直した方が良いでしょうか。

    キャンセル

  • 2018/06/03 21:47

    この質問をそのまま使って、質問文に追記すれば別に構いませんよ

    キャンセル

  • 2018/06/03 22:21

    お返事いただきましてありがとうございます。
    エラー文を最新のものに変更いたしました。
    何卒よろしくお願いいたします。

    キャンセル

  • 2018/06/04 00:46

    元ネタの記事が書かれて以降に、WordNetCorpusReaderにomw_readerという引数が追加されたようです。
    http://docs.huihoo.com/nltk/3.0/api/nltk.corpus.reader.html#nltk.corpus.reader.wordnet.WordNetCorpusReader
    これが多言語対応のための措置なので、記事が書かれた頃とは日本語wordnetの使い方もいろいろ変わっていると思います。
    nltkの情報がネット上に少なくて泣けるんですが、なんかこういうことらしいです
    https://books.google.co.jp/books?id=t5NDDwAAQBAJ&pg=PA183&lpg=PA183&dq=nltk+%E6%97%A5%E6%9C%AC%E8%AA%9Ewordnet&source=bl&ots=PWNqM0cLIB&sig=xJWcFGjol4IMXw_v_1MRgvfLs9Q&hl=ja&sa=X&ved=0ahUKEwjr5pyk67fbAhUCpJQKHepuA-g4ChDoAQgnMAA#v=onepage&q=nltk%20%E6%97%A5%E6%9C%AC%E8%AA%9Ewordnet&f=false

    キャンセル

  • 2018/06/04 07:21

    ご回答いただきましてありがとうございます。
    omw_readerという引数を含めてどの様にコードを修正すればいいのでしょうか。
    ご紹介いただいたnltk 日本語wordnetに関する書籍のコードに沿って、質問のコードjwn_corpusreader.pyを修正する必要があるという理解で正しいでしょうか。

    キャンセル

  • 2018/06/04 07:43

    悲しいことに情報がないので、正直よくわからないです。
    山勘半分で書いてますが、おそらく自前でクラスを定義する必要はなくなっていて、
    jwn = jwn_corpusreader.JapaneseWordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する
    のところを
    jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する
    でなんとかなりませんかねぇ・・・

    キャンセル

  • 2018/06/04 12:10

    ご回答いただきましてありがとうございます。
    sim.pyのjwnの部分を変更させていただきました、
    以下の様にエラー文が出た様です。

    Traceback (most recent call last):
    File "jwn_driver.py", line 9, in <module>
    synLists = sim.convWords2Synsets(wordLists[0], wordLists[1]) #概念リストを作成
    File "/Users/username/Desktop/wordnet/sim.py", line 19, in convWords2Synsets
    jwn = WordNetCorpusReader('C:/LyricsWorkspace/nltk_data/corpora/wordnet', 'C:/LyricsWorkspace/WordNet/wnjpn-ok.tab') #英語WordNetと日本語WordNetを指定する
    NameError: name 'WordNetCorpusReader' is not defined

    お手数おかけしますが、もし修正方法をご存知の場合、お返事いただけましたら幸いです。

    キャンセル

  • 2018/06/04 12:52

    そっちのスクリプトではWordNetCorpusReaderをimportしていないと思うので、importしてあげてくださいな

    キャンセル

  • 2018/06/04 13:10

    お返事いただきましてありがとうございます。質問を修正し、エラー文と修正したコードを掲載しました。こちらのコメント欄に入力すると長くなりそうだlったため、お手数ですが上の質問欄をご確認いただけますようお願いします。

    キャンセル

  • 2018/06/04 13:22

    それはファイルの場所を指定するので、元記事のコピーそのままだと動きません。wordnetのファイルの場所を適切に指定してくださいな

    キャンセル

  • 2018/06/04 15:32

    Traceback (most recent call last):
    File "jwn_driver.py", line 10, in <module>
    simMatrix = sim.calcSim(synLists[0], synLists[1]) #類似度行列を作成
    File "/Users/username/Desktop/sim.py", line 38, in calcSim
    simMatrix[i,j] = max(sims)
    ValueError: max() arg is an empty sequence

    正しい場所に配置したところ、このようなエラーに変わりました。
    参考記事に「入力用のfin1とfin2に取り込むファイルは、\n区切りの単語の羅列だが、取り込むファイルはterapadでutf-8nで書き出す(重要)。」とあったことも影響しているのでしょうか。

    キャンセル

  • 2018/06/04 15:40

    とりあえずsimsが空ということはわかるので、ということは
    for syn1 in synList1[i]:
    for syn2 in synList2[j]:
    sims.append(syn1.path_similarity(syn2))
    の三行のループがまったく回っていないことも確実なので、あとはその線で入力データの形が正しいのかどうかチェックですねー

    キャンセル

  • 2018/06/04 22:24

    WindowsだとTerapadで変換できるようですが、Macはutf-8nでtxtファイルを書き出すにはどの様にすればいいのでしょうか。

    キャンセル

  • 2018/06/04 22:25

    私もmacは詳しくないので・・・すみません・・・

    キャンセル

同じタグがついた質問を見る

  • Python

    9209questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    7401questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Python 2.7

    1343questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • 機械学習

    765questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

  • 自然言語処理

    138questions

    自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。