編集履歴

回答編集履歴

trivial

2018/06/06 12:14

投稿

スコア11038

test CHANGED Viewed

@@ -128,13 +128,13 @@
-langを付けることでシンセットが取り出せました。
+langを付けることで日本語からシンセットが引けました。
-以上から、`convWords2Synsets`関数は以下の様になるでしょう。（よくない点は多いですが直さないでおきましょう）
+以上から、`convWords2Synsets`関数は以下の様になるでしょう。（よくない点は多いですが直さないでおきます）
 ```

追記

2018/06/06 12:14

投稿

quickquip

スコア11038

test CHANGED Viewed

@@ -52,7 +52,7 @@
 [https://ja.1answer.info/737461636b6f766572666c6f772e636f6d-7a3331343738313532](https://ja.1answer.info/737461636b6f766572666c6f772e636f6d-7a3331343738313532)
-を見ると、`WordNetCorpusReader`のコンストラクタの第2引数に渡すのは Open Multilingual Wordnet ([http://compling.hss.ntu.edu.sg/omw/](http://compling.hss.ntu.edu.sg/omw/))で提供している、多国語対応Wordnetのファイルを置いたディレクトリの様です。
+を見ると、`WordNetCorpusReader`のコンストラクタの第2引数に渡すのは Open Multilingual Wordnet ([http://compling.hss.ntu.edu.sg/omw/](http://compling.hss.ntu.edu.sg/omw/))で提供している、~~多国語対応Wordnetのファイルを置いたディレクトリの様です~~。
@@ -85,3 +85,77 @@
 古いNLTKを使って動かす（どんな問題が起きるかはわからない）
 の2択になるのではないでしょうか。
+----
+ちゃんと調べて、omw は nltk にコーパスとして登録されていることが確認できました。
+Python対話環境で以下のコードを試してみてください。
+```
+>>> import nltk
+>>> nltk.download('wordnet')
+(略)
+>>> nltk.download('omw')
+(略)
+>>> from nltk.corpus import wordnet
+>>> wordnet.synsets('サル', lang='jpn')
+[Synset('simian.n.01'), Synset('monkey.n.01'), Synset('anthropoid.n.01')]
+>>> wordnet.synsets('人間', lang='jpn')
+[Synset('person.n.01'), Synset('homo.n.02'), Synset('world.n.08'), Synset('person.n.02'), Synset('man.n.03')]
+>>> wordnet.synsets('サル', lang='jpn')[1].path_similarity(wordnet.synsets('人間', lang='jpn')[4])  # サルの2番目と人間の5番目の類似度
+0.1
+```
+langを付けることでシンセットが取り出せました。
+以上から、`convWords2Synsets`関数は以下の様になるでしょう。（よくない点は多いですが直さないでおきましょう）
+```
+def convWords2Synsets(wordList1, wordList2):
+  """ 単語リストを2つ受け取って概念リストのリストを返す """
+  from nltk.corpus import wordnet
+  synLists = [[ ],[ ]]
+  wordLists = [wordList1, wordList2]
+  for i in [0,1]:
+    for j in range(len(wordLists[i])):
+      synLists[i].append(wordnet.synsets(wordLists[i][j], lang='jpn'))
+  return synLists
+```

追記

2018/06/06 11:53

投稿

quickquip

スコア11038

test CHANGED Viewed

@@ -69,3 +69,19 @@
 ですから`jwn.synsets()`を日本語を引数に呼び出してもシンセットが返ってこないはずです。
 すべての結果が空なので、エラーがでている箇所`max(sims)`の`sims`が空になっているんじゃないでしょうか?
+----
+`jwn_corpusreader.py`のコード、使われてないからなにかと思いましたが、これは古いNLTK用のソースですか? 動かなかったので捨てたんでしょうか。
+新しいNLTKでちゃんと動くように直す
+か
+古いNLTKを使って動かす（どんな問題が起きるかはわからない）
+の2択になるのではないでしょうか。

追記

2018/06/06 06:23

投稿

quickquip

スコア11038

test CHANGED Viewed

@@ -41,3 +41,31 @@
 いまは、Sublimeで作成してPythonで読んでいるので、「BOMを気にしないといけない状況ではない」と判断しています。
+----
+ちょっと調べてみました。
+[https://ja.1answer.info/737461636b6f766572666c6f772e636f6d-7a3331343738313532](https://ja.1answer.info/737461636b6f766572666c6f772e636f6d-7a3331343738313532)
+を見ると、`WordNetCorpusReader`のコンストラクタの第2引数に渡すのは Open Multilingual Wordnet ([http://compling.hss.ntu.edu.sg/omw/](http://compling.hss.ntu.edu.sg/omw/))で提供している、多国語対応Wordnetのファイルを置いたディレクトリの様です。
+```
+jwn = WordNetCorpusReader('nltk_data/corpora/wordnet', 'wnjpn-ok.tab')
+```
+としていますが、これだと（`wnjpn-ok.tab`が件のディレクトリでないなら）日本語Wordnetのセットアップになっていません。
+ですから`jwn.synsets()`を日本語を引数に呼び出してもシンセットが返ってこないはずです。
+すべての結果が空なので、エラーがでている箇所`max(sims)`の`sims`が空になっているんじゃないでしょうか?

追記

2018/06/06 06:09

投稿

quickquip

スコア11038

test CHANGED Viewed

@@ -3,3 +3,41 @@
 意図的にBOM付きを指定しなければ普通は入りません。
 そこは気にしないでロジックを直すことに集中すればいいと思います。
+----
+UTF-8、UTF-16、UTF-32はUnicodeのコードポイント（**ある**文字に振られた番号）をバイナリデータに変換する仕様ですが、UTF-16やUTF-32には複数バイト分のデータの並び順にリトルエンディアンとビッグエンディアンの2種類あって、そのことをエンディアンとかバイトオーダーとか呼んでいます。
+ということは例えば「UTF-16で書かれたファイル」といってもその表現方法に2種類あることにあります。
+「このファイルはどちらのエンディアンで書かれているのか」がわからないと文字情報を読み取れません。そのため、エンディアンを識別するためにファイルの先頭に特別な**印**を置くことができる仕様になっています。
+これをBOM(Byte Order Mark)と呼びます。
+UTF-8には実質エンディアンは関係ないのですが、UTF-16やUTF-32に倣って「このファイルはUTF-8でエンコードされている」ことを示す**印**を置くこともできます。それも（やっぱりUTF-16やUTF-32に倣って）BOMと呼びます。
+したがって、UTF-8には「BOMを付けたファイル」と「BOMを付けていないファイル」の2種類があるわけです。
+さて、PythonやSublimeのエンコーディング名、"UTF-8"は「BOMを付けていないファイル」の方を指しています。こちらがデフォルトで、Sublimeでは"UTF-8 with BOM"を**わざわざ指定しなければ**BOMは付きません。
+かたやterapadは"utf-8"がBOM付きの方で、"utf-8n"がBOMなしの方なんです。
+だからPythonで(UTF-8を指定して)読みこむために、terapadで"utf-8n"を指定しないといけないわけです。
+terapadが標準的な名前になっていないというだけの話なんです。
+いまは、Sublimeで作成してPythonで読んでいるので、「BOMを気にしないといけない状況ではない」と判断しています。

追記

2018/06/05 15:36

投稿

quickquip

スコア11038

test CHANGED Viewed

@@ -1,4 +1,4 @@
-utf-8nはつまりBOM(Byte Order Mark)なしのutf-8という意味であって、普通のエディタのutf-8のことです。
+utf-8nはつまりBOM(Byte Order Mark)なしのutf-8という意味であって、普通のエディタの（そしてPythonの）utf-8のことです。
 意図的にBOM付きを指定しなければ普通は入りません。