編集履歴

質問編集履歴

あ

2019/05/01 00:58

投稿

スコア71

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- あRuby製ライブラリlemmatizerの~~ソース~~コード解読
1	+ Ruby製ライブラリlemmatizerのコード解読

body CHANGED Viewed

File without changes

あ

2019/05/01 00:58

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -336,15 +336,15 @@
 　　・@wordlistsと@exceptions、2つのハッシュを辞書として作成。
 　　・それぞれ、次のような構造。これらにデータを登録する。
    　{:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
-　　・見出し語をwordlistsに登録する理由は、品詞を特定せずにlemmaを呼び出した際、どの品詞に属しているかを検索するため。
+　　・wordlistsに見出し語を登録する目的は、品詞を特定せずにlemmaを呼び出した際、どの品詞に属しているかを特定するため。
 2. lemmaメソッドの呼び出し
 　　<品詞を特定する場合>
 　　　・@exceptionsに単語があれば、そのデータを元に原形を返す
 　　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
-　　<品詞を特定しない場合場合>
+　　<品詞を特定しない場合>
-　　　・[:verb, :noun, :adj, :adv, :abbr]の順に、見出し語を元に、どの品詞なのかを検索する。
+　　　・動詞->名詞->形容詞->副詞の順で[:verb, :noun, :adj, :adv, :abbr]、見出し語から品詞を特定する。
-　　　・@exceptionsに単語があれば、そのデータを元に原形を返す
+　　　・@exceptionsに単語があれば、そこから原形を返す
 　　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
 コードの解読を難しくしていた要因：

あ

2019/05/01 00:57

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -339,8 +339,13 @@
 　　・見出し語をwordlistsに登録する理由は、品詞を特定せずにlemmaを呼び出した際、どの品詞に属しているかを検索するため。
 2. lemmaメソッドの呼び出し
+　　<品詞を特定する場合>
-　　・@exceptionsに単語があれば、そのデータを元に原形を返す
+　　　・@exceptionsに単語があれば、そのデータを元に原形を返す
-　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
+　　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
+　　<品詞を特定しない場合場合>
+　　　・[:verb, :noun, :adj, :adv, :abbr]の順に、見出し語を元に、どの品詞なのかを検索する。
+　　　・@exceptionsに単語があれば、そのデータを元に原形を返す
+　　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
 コードの解読を難しくしていた要因：
 　　・辞書データを作成するためのメソッドが多かったこと

あ

2019/04/30 01:37

投稿

t-cool

スコア71

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Ruby製ライブラリlemmatizerのソースコード解読
1	+ あRuby製ライブラリlemmatizerのソースコード解読

body CHANGED Viewed

@@ -334,8 +334,10 @@
 1. 辞書の作成
 　　・@wordlistsと@exceptions、2つのハッシュを辞書として作成。
-　　・次のような構造。これらにデータを登録する。
+　　・それぞれ、次のような構造。これらにデータを登録する。
    　{:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
+　　・見出し語をwordlistsに登録する理由は、品詞を特定せずにlemmaを呼び出した際、どの品詞に属しているかを検索するため。
 2. lemmaメソッドの呼び出し
 　　・@exceptionsに単語があれば、そのデータを元に原形を返す
 　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。

2019/04/30 01:35

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

あ

2019/04/30 01:33

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -68,7 +68,7 @@
 module Lemmatizer
   class Lemmatizer
-#########################辞書データを作成#####################################
+#########################辞書データの作成#####################################
     # 辞書データがディレクトリのPATH
     # 大文字で始まる場合は「定数」。各メソッドから参照可能。
     DATA_DIR = File.expand_path('..', File.dirname(__FILE__))
@@ -134,11 +134,10 @@
       ]
     }
-    # @wordlistsと@exceptionsに辞書データを登録するためのメソッド
+    # @wordlistsと@exceptionsに辞書データを登録する
     def load_wordnet_files(pos, list, exc)
-      # 実行前、@wordlistsと@exceptionsは次のような構造
+      # 実行前、@wordlistsと@exceptionsは次のような構造。これらにデータを登録する。
       # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
-      # ここにデータを登録していく。
       # 見出し語の登録
       # "acculturation"での例
@@ -151,6 +150,7 @@
           @wordlists[pos][w] = w
         end
       end
 　　　# 例外語の登録
 　　　# 例外語の辞書の各行は、"活用形 原形"(went go）の形式
 　　　# 活用形をwに、原形をsとして、ハッシュに追加していく
@@ -306,12 +306,12 @@
 　　　 # インスタンス変数
 　　　 # スコープ：クラス内で全メソッドで共通して使用することが出来る。
       # クラスから作成されるオブジェクト毎に固有のもの。
-      # インスタンスごとに独立してもつ変数のため、インスタンス変数という。
       MORPHOLOGICAL_SUBSTITUTIONS.keys.each do |x|
         @wordlists[x]  = {}
         @exceptions[x] = {}
       end
       # 実行後、@wordlistsと@exceptionsは次のデータになる
       # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
@@ -330,4 +330,16 @@
 `index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。
+lemmaの動作についてまとめ：
+1. 辞書の作成
+　　・@wordlistsと@exceptions、2つのハッシュを辞書として作成。
+　　・次のような構造。これらにデータを登録する。
+   　{:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
+2. lemmaメソッドの呼び出し
+　　・@exceptionsに単語があれば、そのデータを元に原形を返す
-それぞれのメソッドを追っていますが、どのようにファイル群から辞書を構築して、どのようにlemmaメソッドが動作しているのか、まだ解読できていません。
+　　・なければ、morphological substitution (形態論の置き換え)のルールにしたがって置き換える。
+コードの解読を難しくしていた要因：
+　　・辞書データを作成するためのメソッドが多かったこと
+　　　（NLTKの辞書を再利用していたため）

あ

2019/04/30 01:31

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -68,6 +68,7 @@
 module Lemmatizer
   class Lemmatizer
+#########################辞書データを作成#####################################
     # 辞書データがディレクトリのPATH
     # 大文字で始まる場合は「定数」。各メソッドから参照可能。
     DATA_DIR = File.expand_path('..', File.dirname(__FILE__))
@@ -133,74 +134,8 @@
       ]
     }
-    # インスタンスの生成時に実行される
-    # オプショナル変数。dictに値を渡さない場合はnilになる。
-    def initialize(dict = nil)
-      @wordlists  = {}
-      @exceptions = {}
-　　　 # インスタンス変数
-　　　 # スコープ：クラス内で全メソッドで共通して使用することが出来る。
-      # クラスから作成されるオブジェクト毎に固有のもの。
-      # インスタンスごとに独立してもつ変数のため、インスタンス変数という。
-      MORPHOLOGICAL_SUBSTITUTIONS.keys.each do |x|
-        @wordlists[x]  = {}
-        @exceptions[x] = {}
-      end
-      # 実行後、@wordlistsと@exceptionsは次のデータになる
+    # @wordlistsと@exceptionsに辞書データを登録するためのメソッド
-      # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
-      WN_FILES.each_pair do |pos, pair|
-        load_wordnet_files(pos, pair[0], pair[1])
-      end
-      if dict
-        [dict].flatten.each do |d|
-          load_provided_dict(d)
-        end
-      end
-    end
-    def lemma(form, pos = nil)
-      unless pos
-        [:verb, :noun, :adj, :adv, :abbr].each do |p|
-          result = lemma(form, p)
-          return result unless result == form
-        end
-        return form
-      end
-      each_lemma(form, pos) do |x|
-        return x
-      end
-      form
-    end
-    # Print object only on init
-    def inspect
-      "#{self}"
-    end
-    private
-    # ファイルから見出し語を取り出す前処理？
-    def open_file(*args) # *argsは可変長引数
-      # args[0]がIOクラスかStringIOクラスなら、args[0]を返す
-      if args[0].is_a? IO or args[0].is_a? StringIO
-        yield args[0]
-      else
-        File.open(*args) do |io|
-          yield io
-        end
-      end
-    end
     def load_wordnet_files(pos, list, exc)
-      # @wordlistsと@exceptionsに辞書データを登録するためのメソッド
       # 実行前、@wordlistsと@exceptionsは次のような構造
       # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
       # ここにデータを登録していく。
@@ -216,7 +151,6 @@
           @wordlists[pos][w] = w
         end
       end
 　　　# 例外語の登録
 　　　# 例外語の辞書の各行は、"活用形 原形"(went go）の形式
 　　　# 活用形をwに、原形をsとして、ハッシュに追加していく
@@ -246,23 +180,47 @@
 　　#　よって、pair[0]は見出し語、pair[1]は例外語を示す。
 　　#  load_wordnet_files(pos, pair[0], pair[1])
+    def load_provided_dict(dict)
+      num_lex_added = 0
+      open_file(dict) do |io|
+        io.each_line do |line|
+          # pos must be either n|v|r|a or noun|verb|adverb|adjective
+          p, w, s = line.split(/\s+/, 3)
+          pos = str_to_pos(p)
+          word = w
-    def each_substitutions(form, pos)
+          substitute = s.strip
+          if /\A\"(.*)\"\z/ =~ substitute
+            substitute = $1
+          end
+          if /\A\'(.*)\'\z/ =~ substitute
+            substitute = $1
+          end
+          next unless (pos && word && substitute)
-      if lemma = @wordlists[pos][form]
+          if @wordlists[pos]
+            @wordlists[pos][word] = substitute
-        yield lemma
+            num_lex_added += 1
+          end
+        end
       end
+      # puts "#{num_lex_added} items added from #{File.basename dict}"
+    end
+#########################辞書データを検索#####################################
+    def lemma(form, pos = nil)
+      unless pos
-      MORPHOLOGICAL_SUBSTITUTIONS[pos].each do |entry|
+        [:verb, :noun, :adj, :adv, :abbr].each do |p|
+          result = lemma(form, p)
+          return result unless result == form
+        end
-        # entryが展開されて、oldとnewに代入される
-        old, new = *entry
+        return form
+      end
-        # formがoldで終わっている場合
-        if form.endwith(old)
-          each_substitutions(form[0, form.length - old.length] + new, pos) do |x|
+      each_lemma(form, pos) do |x|
-            yield x
+        return x
-          end
-        end
       end
+      form
     end
     def each_lemma(form, pos)
@@ -282,6 +240,45 @@
       end
     end
+    # Print object only on init
+    def inspect
+      "#{self}"
+    end
+    private
+    # ファイルから見出し語を取り出す前処理？
+    def open_file(*args) # *argsは可変長引数
+      # args[0]がIOクラスかStringIOクラスなら、args[0]を返す
+      if args[0].is_a? IO or args[0].is_a? StringIO
+        yield args[0]
+      else
+        File.open(*args) do |io|
+          yield io
+        end
+      end
+    end
+    def each_substitutions(form, pos)
+      if lemma = @wordlists[pos][form]
+        yield lemma
+      end
+      MORPHOLOGICAL_SUBSTITUTIONS[pos].each do |entry|
+        # entryが展開されて、oldとnewに代入される
+        old, new = *entry
+        # formがoldで終わっている場合
+        if form.endwith(old)
+          each_substitutions(form[0, form.length - old.length] + new, pos) do |x|
+            yield x
+          end
+        end
+      end
+    end
     def str_to_pos(str)
       case str
       when "n", "noun"
@@ -298,32 +295,36 @@
         return :unknown
       end
     end
+  end
-    def load_provided_dict(dict)
+##################辞書を利用するための初期化##############################
-      num_lex_added = 0
+    # インスタンスの生成時に実行される
+    # オプショナル変数。dictに値を渡さない場合はnilになる。
-      open_file(dict) do |io|
+    def initialize(dict = nil)
-        io.each_line do |line|
-          # pos must be either n|v|r|a or noun|verb|adverb|adjective
-          p, w, s = line.split(/\s+/, 3)
-          pos = str_to_pos(p)
-          word = w
+      @wordlists  = {}
-          substitute = s.strip
-          if /\A\"(.*)\"\z/ =~ substitute
-            substitute = $1
+      @exceptions = {}
+　　　 # インスタンス変数
+　　　 # スコープ：クラス内で全メソッドで共通して使用することが出来る。
+      # クラスから作成されるオブジェクト毎に固有のもの。
+      # インスタンスごとに独立してもつ変数のため、インスタンス変数という。
+      MORPHOLOGICAL_SUBSTITUTIONS.keys.each do |x|
+        @wordlists[x]  = {}
+        @exceptions[x] = {}
-          end
+      end
+      # 実行後、@wordlistsと@exceptionsは次のデータになる
+      # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
+      WN_FILES.each_pair do |pos, pair|
-          if /\A\'(.*)\'\z/ =~ substitute
+        load_wordnet_files(pos, pair[0], pair[1])
-            substitute = $1
-          end
+      end
-          next unless (pos && word && substitute)
-          if @wordlists[pos]
+      if dict
-            @wordlists[pos][word] = substitute
+        [dict].flatten.each do |d|
-            num_lex_added += 1
+          load_provided_dict(d)
-          end
         end
       end
-      # puts "#{num_lex_added} items added from #{File.basename dict}"
     end
-  end
 end
 ```

あ

2019/04/30 00:27

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -7,6 +7,8 @@
 読み込まれる辞書データは次のような形式になっています。
+不規則活用の辞書では、”不規則活用形 原形”で各行が並んでいます。
 ```
 # noun.exc
 aardwolves aardwolf
@@ -16,6 +18,8 @@
 abscissae abscissa
 ```
+index.品詞のファイルでは、規則変化、不規則変化に関わらず、単語のリストが並んでいます。この辞書で活用されるのは、最初の1単語のみです。
 ```
 # index.noun
 acculturation n 3 3 @ ~ + 3 1 01128984 05984936 05757049

だいぶOK

2019/04/30 00:14

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -144,6 +144,8 @@
         @wordlists[x]  = {}
         @exceptions[x] = {}
       end
+      # 実行後、@wordlistsと@exceptionsは次のデータになる
+      # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
       WN_FILES.each_pair do |pos, pair|
         load_wordnet_files(pos, pair[0], pair[1])
@@ -180,7 +182,9 @@
     private
+    # ファイルから見出し語を取り出す前処理？
     def open_file(*args) # *argsは可変長引数
+      # args[0]がIOクラスかStringIOクラスなら、args[0]を返す
       if args[0].is_a? IO or args[0].is_a? StringIO
         yield args[0]
       else
@@ -192,9 +196,16 @@
     def load_wordnet_files(pos, list, exc)
+      # @wordlistsと@exceptionsに辞書データを登録するためのメソッド
+      # 実行前、@wordlistsと@exceptionsは次のような構造
+      # {:noun=>{}, :verb=>{}, :adj=>{}, :adv=>{}, :abbr=>{}, :unknown=>{}}
+      # ここにデータを登録していく。
-　 　 # 見出し語への処理
+      # 見出し語の登録
-　 　 # 辞書データの各行(line)を文字列に分解して、見出し語[0]をwに入れる
+      # "acculturation"での例
- 　　 # @ハッシュのwordlistsに、{品詞 => 単語}の形式で見出し語を追加していく
+      # w = "acculturation n 3 3 @~省略~".split(/\s+/)[0]
+      # w は "acculturation"
+      # wordlists[:noun]["acculturation"] = "acculturation"
       open_file(list) do |io|
         io.each_line do |line|
           w = line.split(/\s+/)[0]
@@ -202,10 +213,10 @@
         end
       end
-　　　# 例外語への処理
+　　　# 例外語の登録
-　　　# 例外語の辞書の各行は、"活用形 原形"(例、aardwolves aardwolf）の形式
+　　　# 例外語の辞書の各行は、"活用形 原形"(went go）の形式
 　　　# 活用形をwに、原形をsとして、ハッシュに追加していく
-     # @exceptions[pos][w]が未定義ならば[]を代入する
+     # @exceptions[pos][w]が空ならば[]を代入する
      # @exceptions[pos][w]に、原形をpush << する。
       open_file(exc) do |io|
         io.each_line do |line|
@@ -214,7 +225,6 @@
           @exceptions[pos][w] << s
         end
       end
     end
 　　# インスタンスの初期化の際、次のように呼び出される

助言

2019/04/30 00:09

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -48,9 +48,9 @@
 require 'lemmatizer/core_ext'
 require 'lemmatizer/lemmatizer'
+# asmさんからの助言
+# 　lem = Lemmatizer::Lemmatizer.new  と書くのがめんどくさいから
-# ?? モジュールで self.new を定義すると、モジュールに対してnewが呼べる。
+# 　lem = Lemmatizer.new              と書けるようにしている
-# ?? `lemmatizer/lib/lemmatizer.rb`で、モジュール読み込み時に、Lemmatizer.new(dict)を実行?
-# ?? このコードは何のため？
 module Lemmatizer
   def self.new(dict = nil)
     Lemmatizer.new(dict)
@@ -58,7 +58,7 @@
 end
 ```
-次は、'lemmatizer/lemmatizer.rb'のコード内を読みます。
+次は、'lemmatizer/lemmatizer.rb'のコードです。
 ```
 module Lemmatizer
@@ -90,7 +90,7 @@
       ]
     }
-    # morphological(形態論の)substitution(置き換え)
+    # morphological substitution (形態論の置き換え)
     # 規則的に置き換え可能な場合のルール
     # 重複するものは、ing, es, ed, er, est。
     MORPHOLOGICAL_SUBSTITUTIONS = {

nnn

2019/04/29 23:13

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -29,12 +29,39 @@
 Wordnetの他の相関データがそのまま入っていて、
 ここの辞書データの全てを利用している訳ではないのでは？と推測しています。
-[lemmatizer/lib/lemmatizer/lemmatizer.rb](https://github.com/yohasebe/lemmatizer/blob/master/lib/lemmatizer/lemmatizer.rb)
-が、どのように辞書データを参照して、原形に変換しているのかをご助言いただけないでしょうか？
+以下、ソースコードを読み解きながら、どのようにlemmaメソッドが動作しているかを解読しようと試みます。
+まずは、ライブラリを管理する`lemmatizer.gemspec`です。以下の箇所では、Gemをrequireしたとき、実際にロードするファイルのパスが指定されています。libフォルダ以下にあるファイル群が読み込まれます。
 ```
+Gem::Specification.new do |gem|
+  (省略)
+  gem.require_paths = ['lib']
+end
+```
+`lib/lemmatizer.rb`では、次の順でモジュールが読み込まれます。
+```
+require 'stringio'
+require 'lemmatizer/version'
+require 'lemmatizer/core_ext'
+require 'lemmatizer/lemmatizer'
+# ?? モジュールで self.new を定義すると、モジュールに対してnewが呼べる。
+# ?? `lemmatizer/lib/lemmatizer.rb`で、モジュール読み込み時に、Lemmatizer.new(dict)を実行?
+# ?? このコードは何のため？
 module Lemmatizer
+  def self.new(dict = nil)
+    Lemmatizer.new(dict)
+  end
+end
+```
+次は、'lemmatizer/lemmatizer.rb'のコード内を読みます。
+```
+module Lemmatizer
   class Lemmatizer
     # 辞書データがディレクトリのPATH
@@ -103,8 +130,8 @@
     }
     # インスタンスの生成時に実行される
+    # オプショナル変数。dictに値を渡さない場合はnilになる。
     def initialize(dict = nil)
-    # オプショナル変数。dictに値を渡さない場合はnilになる。
       @wordlists  = {}
       @exceptions = {}

2019/04/28 12:35

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -286,4 +286,6 @@
 end
 ```
-`index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。
+`index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。
+それぞれのメソッドを追っていますが、どのようにファイル群から辞書を構築して、どのようにlemmaメソッドが動作しているのか、まだ解読できていません。

2019/04/27 09:25

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -211,7 +211,11 @@
       end
       MORPHOLOGICAL_SUBSTITUTIONS[pos].each do |entry|
+        # entryが展開されて、oldとnewに代入される
-        old, new = *entry
+        old, new = *entry
+        # formがoldで終わっている場合
         if form.endwith(old)
           each_substitutions(form[0, form.length - old.length] + new, pos) do |x|
             yield x

2019/04/27 09:19

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -33,49 +33,7 @@
 が、どのように辞書データを参照して、原形に変換しているのかをご助言いただけないでしょうか？
 ```
-WN_FILES
--> 。
-MORPHOLOGICAL_SUBSTITUTIONS
--> 形態素に基づく変換規則。
-# メソッド
-lemma(form, pos = nil)
--> 単語(form)と品詞(pos)を受け取り、原形を返す。
-initialize(dict = nil)
--> インスタンスが生成されたときに実行される。
--> wordlistsとexceptionsの空のハッシュを宣言後、単語を追加していく。
-each_lemma(form, pos)
--> メインのメソッド？
--> 単語(form)と品詞(pos)を受け取り、
-　　　1. 例外の単語ペアに合致すれば返す
-　　　2. `ful`で終わっている場合の対応
-　　　3. 原則どおりの場合の対応
-　　　　　each_substitutions(form, pos)が呼び出される。
-each_substitutions(form, pos)
--> 形態素を元に原則どおり変換する場合の変換。
-inspect
--> インスタンス生成時に、オブジェクトを印字する。
-open_file(*args)
--> ファイルを開く。
-load_wordnet_files(pos, list, exc)
--> wordnet_filesを読み込む。
-str_to_pos(str)
--> 文字列をシンボルに変換して返す。
-load_provided_dict(dict)
--> 辞書を読み込む
-```
-```
 module Lemmatizer
   class Lemmatizer
@@ -85,7 +43,7 @@
     # 辞書データのPATH
     # noun(名詞)、verb(動詞)、adj(形容詞)、adv(副詞)
-    # index.品詞は見出し語。品詞.excは不規則活用。
+    # index.品詞は見出し語。品詞.excは不規則活用。excはexception(例外)。
     WN_FILES = {
       :noun => [
         DATA_DIR + '/dict/index.noun',
@@ -206,6 +164,10 @@
     end
     def load_wordnet_files(pos, list, exc)
+　 　 # 見出し語への処理
+　 　 # 辞書データの各行(line)を文字列に分解して、見出し語[0]をwに入れる
+ 　　 # @ハッシュのwordlistsに、{品詞 => 単語}の形式で見出し語を追加していく
       open_file(list) do |io|
         io.each_line do |line|
           w = line.split(/\s+/)[0]
@@ -213,15 +175,36 @@
         end
       end
+　　　# 例外語への処理
+　　　# 例外語の辞書の各行は、"活用形 原形"(例、aardwolves aardwolf）の形式
+　　　# 活用形をwに、原形をsとして、ハッシュに追加していく
+     # @exceptions[pos][w]が未定義ならば[]を代入する
+     # @exceptions[pos][w]に、原形をpush << する。
       open_file(exc) do |io|
         io.each_line do |line|
           w, s = line.split(/\s+/)
-          @exceptions[pos][w] ||= []
+          @exceptions[pos][w] ||= []
           @exceptions[pos][w] << s
         end
       end
     end
+　　# インスタンスの初期化の際、次のように呼び出される
+　　#  WN_FILES.each_pair do |pos, pair|
+　　#    load_wordnet_files(pos, pair[0], pair[1])
+　　#  end
+　　#
+　　#  WN_FILESは、{品詞 => [index.品詞, 品詞.例外]}を持つハッシュ
+　　#  WN_FILES = {
+　　#    :noun => [
+　　#      DATA_DIR + '/dict/index.noun',
+　　#      DATA_DIR + '/dict/noun.exc'
+　　#    ],
+　　#
+　　#　よって、pair[0]は見出し語、pair[1]は例外語を示す。
+　　#  load_wordnet_files(pos, pair[0], pair[1])
     def each_substitutions(form, pos)
       if lemma = @wordlists[pos][form]
         yield lemma

2019/04/27 08:52

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -33,12 +33,8 @@
 が、どのように辞書データを参照して、原形に変換しているのかをご助言いただけないでしょうか？
 ```
-# 変数
-DATA_DIR
--> 辞書があるディレクトリの指定。
 WN_FILES
--> 辞書データの指定。
+-> 。
 MORPHOLOGICAL_SUBSTITUTIONS
 -> 形態素に基づく変換規則。
@@ -82,8 +78,14 @@
 module Lemmatizer
   class Lemmatizer
+    # 辞書データがディレクトリのPATH
+    # 大文字で始まる場合は「定数」。各メソッドから参照可能。
     DATA_DIR = File.expand_path('..', File.dirname(__FILE__))
+    # 辞書データのPATH
+    # noun(名詞)、verb(動詞)、adj(形容詞)、adv(副詞)
+    # index.品詞は見出し語。品詞.excは不規則活用。
     WN_FILES = {
       :noun => [
         DATA_DIR + '/dict/index.noun',
@@ -102,7 +104,10 @@
         DATA_DIR + '/dict/adv.exc'
       ]
     }
+    # morphological(形態論の)substitution(置き換え)
+    # 規則的に置き換え可能な場合のルール
+    # 重複するものは、ing, es, ed, er, est。
     MORPHOLOGICAL_SUBSTITUTIONS = {
       :noun => [
         ['s',    ''   ],
@@ -139,9 +144,16 @@
       ]
     }
+    # インスタンスの生成時に実行される
     def initialize(dict = nil)
+    # オプショナル変数。dictに値を渡さない場合はnilになる。
       @wordlists  = {}
       @exceptions = {}
+　　　 # インスタンス変数
+　　　 # スコープ：クラス内で全メソッドで共通して使用することが出来る。
+      # クラスから作成されるオブジェクト毎に固有のもの。
+      # インスタンスごとに独立してもつ変数のため、インスタンス変数という。
       MORPHOLOGICAL_SUBSTITUTIONS.keys.each do |x|
         @wordlists[x]  = {}
@@ -183,7 +195,7 @@
     private
-    def open_file(*args)
+    def open_file(*args) # *argsは可変長引数
       if args[0].is_a? IO or args[0].is_a? StringIO
         yield args[0]
       else

2019/04/25 21:11

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -78,4 +78,213 @@
 -> 辞書を読み込む
 ```
+```
+module Lemmatizer
+  class Lemmatizer
+    DATA_DIR = File.expand_path('..', File.dirname(__FILE__))
+    WN_FILES = {
+      :noun => [
+        DATA_DIR + '/dict/index.noun',
+        DATA_DIR + '/dict/noun.exc'
+      ],
+      :verb => [
+        DATA_DIR + '/dict/index.verb',
+        DATA_DIR + '/dict/verb.exc'
+      ],
+      :adj  => [
+        DATA_DIR + '/dict/index.adj',
+        DATA_DIR + '/dict/adj.exc'
+      ],
+      :adv  => [
+        DATA_DIR + '/dict/index.adv',
+        DATA_DIR + '/dict/adv.exc'
+      ]
+    }
+    MORPHOLOGICAL_SUBSTITUTIONS = {
+      :noun => [
+        ['s',    ''   ],
+        ['ses',  's'  ],
+        ['ves',  'f'  ],
+        ['xes',  'x'  ],
+        ['zes',  'z'  ],
+        ['ches', 'ch' ],
+        ['shes', 'sh' ],
+        ['men',  'man'],
+        ['ies',  'y'  ]
+      ],
+      :verb => [
+        ['s',   '' ],
+        ['ies', 'y'],
+        ['es',  'e'],
+        ['es',  '' ],
+        ['ed',  'e'],
+        ['ed',  '' ],
+        ['ing', 'e'],
+        ['ing', '' ]
+      ],
+      :adj =>  [
+        ['er',  '' ],
+        ['est', '' ],
+        ['er',  'e'],
+        ['est', 'e']
+      ],
+      :adv =>  [
+      ],
+      :abbr =>  [
+      ],
+      :unknown => [
+      ]
+    }
+    def initialize(dict = nil)
+      @wordlists  = {}
+      @exceptions = {}
+      MORPHOLOGICAL_SUBSTITUTIONS.keys.each do |x|
+        @wordlists[x]  = {}
+        @exceptions[x] = {}
+      end
+      WN_FILES.each_pair do |pos, pair|
+        load_wordnet_files(pos, pair[0], pair[1])
+      end
+      if dict
+        [dict].flatten.each do |d|
+          load_provided_dict(d)
+        end
+      end
+    end
+    def lemma(form, pos = nil)
+      unless pos
+        [:verb, :noun, :adj, :adv, :abbr].each do |p|
+          result = lemma(form, p)
+          return result unless result == form
+        end
+        return form
+      end
+      each_lemma(form, pos) do |x|
+        return x
+      end
+      form
+    end
+    # Print object only on init
+    def inspect
+      "#{self}"
+    end
+    private
+    def open_file(*args)
+      if args[0].is_a? IO or args[0].is_a? StringIO
+        yield args[0]
+      else
+        File.open(*args) do |io|
+          yield io
+        end
+      end
+    end
+    def load_wordnet_files(pos, list, exc)
+      open_file(list) do |io|
+        io.each_line do |line|
+          w = line.split(/\s+/)[0]
+          @wordlists[pos][w] = w
+        end
+      end
+      open_file(exc) do |io|
+        io.each_line do |line|
+          w, s = line.split(/\s+/)
+          @exceptions[pos][w] ||= []
+          @exceptions[pos][w] << s
+        end
+      end
+    end
+    def each_substitutions(form, pos)
+      if lemma = @wordlists[pos][form]
+        yield lemma
+      end
+      MORPHOLOGICAL_SUBSTITUTIONS[pos].each do |entry|
+        old, new = *entry
+        if form.endwith(old)
+          each_substitutions(form[0, form.length - old.length] + new, pos) do |x|
+            yield x
+          end
+        end
+      end
+    end
+    def each_lemma(form, pos)
+      if lemma = @exceptions[pos][form]
+        lemma.each { |x| yield x }
+      end
+      if pos == :noun && form.endwith('ful')
+        each_lemma(form[0, form.length-3], pos) do |x|
+          yield x + 'ful'
+        end
+      else
+      each_substitutions(form, pos) do|x|
+          yield x
+        end
+      end
+    end
+    def str_to_pos(str)
+      case str
+      when "n", "noun"
+        return :noun
+      when "v", "verb"
+        return :noun
+      when "a", "j", "adjective", "adj"
+        return :adj
+      when "r", "adverb", "adv"
+        return :adv
+      when "b", "abbrev", "abbr", "abr"
+        return :abbr
+      else
+        return :unknown
+      end
+    end
+    def load_provided_dict(dict)
+      num_lex_added = 0
+      open_file(dict) do |io|
+        io.each_line do |line|
+          # pos must be either n|v|r|a or noun|verb|adverb|adjective
+          p, w, s = line.split(/\s+/, 3)
+          pos = str_to_pos(p)
+          word = w
+          substitute = s.strip
+          if /\A\"(.*)\"\z/ =~ substitute
+            substitute = $1
+          end
+          if /\A\'(.*)\'\z/ =~ substitute
+            substitute = $1
+          end
+          next unless (pos && word && substitute)
+          if @wordlists[pos]
+            @wordlists[pos][word] = substitute
+            num_lex_added += 1
+          end
+        end
+      end
+      # puts "#{num_lex_added} items added from #{File.basename dict}"
+    end
+  end
+end
+```
 `index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。

2019/04/25 11:57

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -78,4 +78,4 @@
 -> 辞書を読み込む
 ```
-`index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。変形、活用しない単語であり、そのまま値を返しているようです。
+`index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。

2019/04/25 11:48

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -25,13 +25,6 @@
 accuracy n 2 5 ! @ ~ = ; 2 2 04802907 04803209
 ```
-次の点に気が付きました。
-　・単語の後にpos(品詞)の省略形が続き、その後に、2つ数字があること。
-　・@の後には、　~ + ; %pなどが続くこと。
-　・@の後に続く数字は2つであること。
-　・@の後に続く数字と、そのあとに続く数字（8桁）の数が一致していること。
-　・pos直後の数字2つと、@に続く数字2つの最初の数字は同じであること。
 この辞書は、PythonのNLTKライブラリのWordnetの辞書から借用されているようなので、
 Wordnetの他の相関データがそのまま入っていて、
 ここの辞書データの全てを利用している訳ではないのでは？と推測しています。

good

2019/04/25 04:17

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -85,4 +85,4 @@
 -> 辞書を読み込む
 ```
-よろしくお願いいたします。
+`index.品詞`の辞書は、各行の見出しだけを読み込んでいるとasmさんから助言をうけました。変形、活用しない単語であり、そのまま値を返しているようです。

fix

2019/04/25 04:16

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,6 +8,16 @@
 読み込まれる辞書データは次のような形式になっています。
 ```
+# noun.exc
+aardwolves aardwolf
+abaci abacus
+aboideaux aboideau
+aboiteaux aboiteau
+abscissae abscissa
+```
+```
+# index.noun
 acculturation n 3 3 @ ~ + 3 1 01128984 05984936 05757049
 accumulation n 4 4 @ ~ + ; 4 3 13424865 07951464 00372013 13366693
 accumulator n 3 4 @ ~ %p ; 3 0 09936362 04328329 02673078

分析

2019/04/25 03:41

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -26,6 +26,53 @@
 Wordnetの他の相関データがそのまま入っていて、
 ここの辞書データの全てを利用している訳ではないのでは？と推測しています。
+[lemmatizer/lib/lemmatizer/lemmatizer.rb](https://github.com/yohasebe/lemmatizer/blob/master/lib/lemmatizer/lemmatizer.rb)
-辞書のどこのデータを参照して原形を特定しているのかをご助言いただけないでしょうか？
+が、どのように辞書データを参照して、原形に変換しているのかをご助言いただけないでしょうか？
+```
+# 変数
+DATA_DIR
+-> 辞書があるディレクトリの指定。
+WN_FILES
+-> 辞書データの指定。
+MORPHOLOGICAL_SUBSTITUTIONS
+-> 形態素に基づく変換規則。
+# メソッド
+lemma(form, pos = nil)
+-> 単語(form)と品詞(pos)を受け取り、原形を返す。
+initialize(dict = nil)
+-> インスタンスが生成されたときに実行される。
+-> wordlistsとexceptionsの空のハッシュを宣言後、単語を追加していく。
+each_lemma(form, pos)
+-> メインのメソッド？
+-> 単語(form)と品詞(pos)を受け取り、
+　　　1. 例外の単語ペアに合致すれば返す
+　　　2. `ful`で終わっている場合の対応
+　　　3. 原則どおりの場合の対応
+　　　　　each_substitutions(form, pos)が呼び出される。
+each_substitutions(form, pos)
+-> 形態素を元に原則どおり変換する場合の変換。
+inspect
+-> インスタンス生成時に、オブジェクトを印字する。
+open_file(*args)
+-> ファイルを開く。
+load_wordnet_files(pos, list, exc)
+-> wordnet_filesを読み込む。
+str_to_pos(str)
+-> 文字列をシンボルに変換して返す。
+load_provided_dict(dict)
+-> 辞書を読み込む
+```
 よろしくお願いいたします。

ふぃx

2019/04/25 03:39

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -24,7 +24,7 @@
 この辞書は、PythonのNLTKライブラリのWordnetの辞書から借用されているようなので、
 Wordnetの他の相関データがそのまま入っていて、
-@以降の数字は原形を特定するためには不要なのかも？と推測しています。
+ここの辞書データの全てを利用している訳ではないのでは？と推測しています。
 辞書のどこのデータを参照して原形を特定しているのかをご助言いただけないでしょうか？

fix

2019/04/24 13:51

投稿

t-cool

スコア71

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- Rubyのソースコードの解読
1	+ Ruby製ライブラリlemmatizerのソースコード解読

body CHANGED Viewed

File without changes

tweak

2019/04/24 13:48

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -20,6 +20,7 @@
 　・@の後には、　~ + ; %pなどが続くこと。
 　・@の後に続く数字は2つであること。
 　・@の後に続く数字と、そのあとに続く数字（8桁）の数が一致していること。
+　・pos直後の数字2つと、@に続く数字2つの最初の数字は同じであること。
 この辞書は、PythonのNLTKライブラリのWordnetの辞書から借用されているようなので、
 Wordnetの他の相関データがそのまま入っていて、

改善

2019/04/24 13:47

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -15,12 +15,16 @@
 accuracy n 2 5 ! @ ~ = ; 2 2 04802907 04803209
 ```
-ここでの`@`や`+`、またそのあとに続く数字の羅列が何を意味しているかご助言いただけないでしょうか？
 次の点に気が付きました。
 　・単語の後にpos(品詞)の省略形が続き、その後に、2つ数字があること。
 　・@の後には、　~ + ; %pなどが続くこと。
 　・@の後に続く数字は2つであること。
 　・@の後に続く数字と、そのあとに続く数字（8桁）の数が一致していること。
+この辞書は、PythonのNLTKライブラリのWordnetの辞書から借用されているようなので、
+Wordnetの他の相関データがそのまま入っていて、
+@以降の数字は原形を特定するためには不要なのかも？と推測しています。
+辞書のどこのデータを参照して原形を特定しているのかをご助言いただけないでしょうか？
-ご助言をよろしくお願いいたします。
+よろしくお願いいたします。

tweak

2019/04/24 13:42

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -19,6 +19,8 @@
 次の点に気が付きました。
 　・単語の後にpos(品詞)の省略形が続き、その後に、2つ数字があること。
+　・@の後には、　~ + ; %pなどが続くこと。
+　・@の後に続く数字は2つであること。
-　・@直後の数字と、そのあとに続く数字の数が一致していること。
+　・@の後に続く数字と、そのあとに続く数字（8桁）の数が一致していること。
 ご助言をよろしくお願いいたします。

tweak

2019/04/24 13:37

投稿

t-cool

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -17,4 +17,8 @@
 ここでの`@`や`+`、またそのあとに続く数字の羅列が何を意味しているかご助言いただけないでしょうか？
+次の点に気が付きました。
+　・単語の後にpos(品詞)の省略形が続き、その後に、2つ数字があること。
+　・@直後の数字と、そのあとに続く数字の数が一致していること。
-よろしくお願いいたします。
+ご助言をよろしくお願いいたします。