編集履歴

質問編集履歴

誤字

2018/07/22 03:02

投稿

hershel

スコア13

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -138,7 +138,7 @@
-リンゴ　私はリンゴが好きです｜私はプログラムです
+私　私はリンゴが好きです｜私はプログラムです
 リンゴ　私はリンゴが好きです

情報の追加

2018/07/22 03:01

投稿

hershel

スコア13

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -127,3 +127,203 @@
 しかしこれ以前の文章には「妹」も「附加」も出てこないためなぜここでエラーが出るのか不明です。
 ご教授いただけると幸いです。
+追記
+ptn['pattern']にはそれまで会話の中に登場した名詞が入ります。
+会話を行うとその中に登場した名詞や文章を学習してファイルに
+リンゴ　私はリンゴが好きです｜私はプログラムです
+リンゴ　私はリンゴが好きです
+プログラム　私はプログラムです
+といった形で情報を入れます。
+先頭の単語がptn['pattern']にあたります。
+関連するコードは
+```
+import re
+from janome.tokenizer import Tokenizer
+class Dictionary:
+    """思考エンジンの辞書クラス。
+    クラス変数:
+    DICT_PATTERN -- パターン辞書のファイル名
+    TOKENIZER -- 形態素解析器
+    スタティックメソッド:
+    make_pattern(str) -- パターン辞書読み込み用のヘルパー
+    pattern_to_line(pattern) -- パターンハッシュをパターン辞書形式に変換する
+    analyze(str) -- 文字列strを形態素解析する
+    プロパティ:
+    pattern -- パターン辞書
+    """
+    DICT_PATTERN = '***.txt'
+    TOKENIZER = Tokenizer()
+    def __init__(self):
+        """ファイルから辞書の読み込みを行う。"""
+        with open(Dictionary.DICT_RANDOM, encoding='utf-8') as f:
+            self._random = [l for l in f.read().splitlines() if l]
+        with open(Dictionary.DICT_PATTERN, encoding='utf-8') as f:
+            self._pattern = [Dictionary.make_pattern(l) for l in f.read().splitlines() if l]
+    def study(self, text):
+        """パターン辞書をメモリに保存する。"""
+        self.study_pattern(text, Dictionary.analyze(text))
+    def study_pattern(self, text, parts):
+        """ユーザーの発言textを、形態素partsに基づいてパターン辞書に保存する。"""
+        for word, part in parts:
+            if self.is_keyword(part):  # 品詞が名詞であれば学習
+                # 単語の重複チェック
+                # 同じ単語で登録されていれば、パターンを追加する
+                # 無ければ新しいパターンを作成する
+                duplicated = next((p for p in self._pattern if p['pattern'] == word), None)
+                if duplicated:
+                    if not text in duplicated['phrases']:
+                        duplicated['phrases'].append(text)
+                else:
+                    self._pattern.append({'pattern': word, 'phrases': [text]})
+    def save(self):
+        """メモリ上の辞書をファイルに保存する。"""
+        with open(Dictionary.DICT_RANDOM, mode='w', encoding='utf-8') as f:
+            f.write('\n'.join(self.random))
+        with open(Dictionary.DICT_PATTERN, mode='w', encoding='utf-8') as f:
+            f.write('\n'.join([Dictionary.pattern_to_line(p) for p in self._pattern]))
+    @staticmethod
+    def analyze(text):
+        """文字列textを形態素解析し、[(surface, parts)]の形にして返す。"""
+        return [(t.surface, t.part_of_speech) for t in Dictionary.TOKENIZER.tokenize(text)]
+    @staticmethod
+    def pattern_to_line(pattern):
+        """パターンのハッシュを文字列に変換する。"""
+        return '{}\t{}'.format(pattern['pattern'], '|'.join(pattern['phrases']))
+    @staticmethod
+    def is_keyword(part):
+        """品詞partが学習すべきキーワードであるかどうかを真偽値で返す。"""
+        return bool(re.match(r'名詞,(一般|代名詞|固有名詞|サ変接続|形容動詞語幹)', part))
+    @staticmethod
+    def make_pattern(line):
+        """文字列lineを\tで分割し、{'pattern': [0], 'phrases': [1]}の形式で返す。
+        [1]はさらに`|`で分割し、文字列のリストとする。"""
+        pattern, phrases = line.split('\t')
+        if pattern and phrases:
+            return {'pattern': pattern, 'phrases': phrases.split('|')}
+    @property
+    def pattern(self):
+        """パターン辞書"""
+        return self._pattern
+```