トップに関する質問 Djangoのデータベースに、自作クラスの変数を保存する方法

編集履歴

質問編集履歴

編集・追記依頼の対応

2017/12/16 14:17

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,10 +1,16 @@
+以下、※の行は追記です。
 現在やっていること
 ---
 Pythonで機械学習を勉強しています。
-現在、ベイズの考え方を用いてWeb上のテキスト分類を行うDjangoアプリを作成中です。
+現在、Web上のテキスト分類を行うDjangoアプリを作成中です。
+※分類には、ナイーブベイズを用いています。
@@ -30,7 +36,7 @@
 ---
-Djangoカスタムコマンドで、教師データの収集とデータベースへ保存する。
+Djangoカスタムコマンドで、教師データの収集とそれのデータベースへの保存を行う。
 ↓
@@ -38,6 +44,8 @@
 このとき、上記の過程で保存したデータを取得して学習させる。
+※分類器・ナイーブベイズのクラス変数を宣言し、クラスメソッドで学習を行う。
 ↓
 アプリのトップページ(index.html)でURLを入力し、そこのHTMLを取得する。
@@ -46,7 +54,7 @@
 HTMLを形態素解析し、分類を行う。
-※ここで学習済みの分類器クラスのインスタンスを使いたいのですが、取得できません。
+(ここで学習済みのナイーブベイズのクラス変数を使いたいのですが、取得できません。)
 ↓
@@ -73,3 +81,229 @@
 ・beautifulsoup4 - 4.6.0 → スクレイピング
 ・janome - 0.3.5 → 形態素解析
+追記(2017.12.16)
+---
+naosk8さん、ご回答誠にありがとうございます。追記が遅くなり、申し訳ありません。
+分類は、ナイーブベイズの理論で行っています。
+その分類器を保存して、ブラウザでの結果表示に再利用しようと考えています。
+下記のクラスメソッドtrainで学習させた後、そのクラス変数をデータベースに保存します。
+views.pyでデータベースから取得し、ブラウザ上に結果表示をするようにしたいです。
+ナイーブベイズの分類器でも、データベースへの保存は不向きなのでしょうか。
+ナイーブベイズによる分類器のコード
+---
+```Python
+class NaiveBayes:
+    """
+    ナイーブベイズを適用するクラス。
+    カスタムコマンドtrainで、このクラスのメソッドtrainを呼び出す。
+    その後、メソッドclassifierを呼び出し、分類を行う。
+    """
+    def __init__(self): # コンストラクタ
+        # 学習データの全単語の集合(加算スムージング用。リストと異なり要素の順番は無い)
+        self.vocabularies = set()
+        # 学習データのカテゴリー毎の単語セット用 ex: {'花粉症対策': {'スギ花粉': 4, '薬': 2,...} }
+        self.word_count = {}
+        # 学習データのカテゴリー毎の文書数セット用 ex: {'花粉症対策': 16, ...}
+        self.category_count = {}
+        # 形態素解析ライブラリJanomeのインスタンス
+        self.t = Tokenizer()
+        # 学習済みかどうか
+        self.isTrained = False
+    def train(self, document, category): # 学習
+        # DBに保存した教師データのカラムdocを引数にとって形態素解析
+        word_list = self.t.tokenize(document)
+        for word in word_list:
+            # カテゴリー内の単語出現回数をUP
+            self.__word_count_up(word, category)
+        # カテゴリーの文書数をUP
+        self.__category_count_up(category)
+    def __word_count_up(self, word, category): # 学習データのカテゴリー内の単語出現回数をUP
+        # 新カテゴリーなら追加
+        self.word_count.setdefault(category, {})
+        # カテゴリー内で新単語なら追加
+        self.word_count[category].setdefault(word, 0)
+        # カテゴリー内の単語出現回数をUP
+        self.word_count[category][word] += 1
+        # 学習データの全単語集合に加える(重複排除)
+        self.vocabularies.add(word)
+    def __category_count_up(self, category): # 学習データのカテゴリーの文書数をUP
+        # 新カテゴリーなら追加
+        self.category_count.setdefault(category, 0)
+        # カテゴリーの文書数をUP
+        self.category_count[category] += 1
+    def classifier(self, document): # 分類
+        # もっとも近いカテゴリ
+        best_category = None
+        # 最小整数値を設定
+        max_prob = -sys.maxsize
+        # 対象文書を形態素解析
+        word_list = self.t.tokenize(document)
+        # カテゴリ毎に文書内のカテゴリー出現率P(C|D)を求める
+        for category in self.category_count.keys():
+            # 文書内のカテゴリー出現率P(C|D)を求める
+            prob = self.__score(word_list, category)
+            if prob > max_prob:
+                max_prob = prob
+                best_category = category
+        return best_category
+    def verify_acc(self) : # 精度検証
+        ok = 0
+        all_testdatas_list = list(CollectedData_test.objects.all())
+        for test_data in all_testdatas_list:
+            print(ok)
+            cate_classify = self.classifier(test_data.doc)
+            if cate_classify == test_data.category:
+                ok += 1
+        # 正解率=正答数/テストデータの総数
+        acc = ok / len(Constant.ID_test.value)
+        return acc
+    def __score(self, word_list, category): # 文書内のカテゴリー出現率P(C|D)
+        # カテゴリー出現率P(C)を取得 (アンダーフロー対策で対数をとり、加算)
+        score = math.log(self.__prior_prob(category))
+        # カテゴリー内の単語出現率を文書内のすべての単語で求める
+        for word in word_list:
+            # カテゴリー内の単語出現率P(Wn|C)を計算 (アンダーフロー対策で対数をとり加算)
+            score += math.log(self.__word_prob(word, category))
+        return score
+    def __prior_prob(self, category): # カテゴリー出現率P(C)
+        # 学習データの対象カテゴリーの文書数 / 学習データの文書数合計
+        return float(self.category_count[category] / sum(self.category_count.values()))
+    def __word_prob(self, word, category): # カテゴリー内の単語出現率P(Wn|C)
+        # 単語のカテゴリー内出現回数 + 1 / カテゴリー内単語数 + 学習データの全単語数 (加算スムージング)
+        prob = (self.__in_category(word, category) + 1.0) / \
+                   (sum(self.word_count[category].values()) + \
+                    len(self.vocabularies) * 1.0)
+        return prob
+    def __in_category(self, word, category): # 単語のカテゴリー内出現回数を返す
+        if word in self.word_count[category]:
+            # 単語のカテゴリー内出現回数
+            return float(self.word_count[category][word])
+        return 0.0
+```

2017/12/16 14:17

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

更新

2017/12/05 23:26

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

文章の修正

2017/12/04 09:59

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

タグの変更

2017/12/04 02:35

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

2017/12/04 01:19

投稿

Mocha

スコア15

test CHANGED Viewed

	@@ -1 +1 @@
1	- Djangoのデータベースへの保存~~について~~
1	+ Djangoのデータベースに、自作クラスの変数を保存する方法

test CHANGED Viewed

File without changes

文章の修正・加筆

2017/12/04 00:01

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -18,15 +18,9 @@
-以下の方法を試したのですが、実現できていません。
+学習を行い、終了と同時にDjangoのデータベースにその分類器のクラスのインスタンスを保存する。
-１．インスタンス変数をグローバル化して、コマンドを実行してからviews.py(分類器クラスのインスタンスimport済み)を動かす。
-２．学習を行い、終了したと同時にDjangoのデータベースにその分類器のクラスのインスタンスを保存する。
-個人的に方法２が楽かと思うのですが、自作クラスのインスタンスをDjangoデータベースに保存する仕方が分かりません。
+この方法で試みていますが、自作クラスのインスタンスをDjangoデータベースに保存する仕方が分かりません。
 どなたか、どうか私にご教授いただけないでしょうか...？
@@ -64,18 +58,18 @@
 ---
-Anaconda 5.0.1
+Anaconda - 5.0.1
-Django 1.11.3
+Django - 1.11.3
-Python 3.6.3
+Python - 3.6.3
 使用している外部ライブラリ
-・requests 2.18.4 URL先からリソース取得
+・requests - 2.18.4 → URL先からリソース取得
-・beautifulsoup4 4.6.0 スクレイピング
+・beautifulsoup4 - 4.6.0 → スクレイピング
-・janome 0.3.5 形態素解析
+・janome - 0.3.5 → 形態素解析

脱字

2017/12/02 11:00

投稿

Mocha

スコア15

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -4,7 +4,7 @@
 Pythonで機械学習を勉強しています。
-現在はベイズの考え方を用いてWeb上のテキスト分類を行うDjangoアプリを作成中です。
+現在、ベイズの考え方を用いてWeb上のテキスト分類を行うDjangoアプリを作成中です。