質問編集履歴

タイトルの変更と該当箇所のソースの貼り付け

2017/12/21 17:45

投稿

benkyouchuu

スコア26

test CHANGED Viewed

	@@ -1 +1 @@
1	- ~~pytho~~nのエラー~~対処方法につ~~いて
1	+ gensimとMecabを使った機械学習のエラーがなかなか修正できません。助けてください。

test CHANGED Viewed

@@ -41,3 +41,89 @@
 半日以上悩んでいます。誰か助けてください。よろしくお願いします。
+該当箇所も載せておきます。
+```python
+def mecab(db,estimator):
+    dates =[]
+    labels = []
+    for age in range(1,7):
+        docs = []
+        descriptions = (data['description'].encode('utf-8') for data in db.profile.find({"age": age*10}))
+        tagger = MeCab.Tagger('-Ochasen')
+        counter = Counter()
+        a = list(descriptions)
+        print a[0],age
+        for description in a:
+            nodes = tagger.parseToNode(description)
+            while nodes:
+                if nodes.feature.split(',')[0] == '名詞':
+                    word = nodes.surface.decode('utf-8')
+                    counter[word] += 1
+                nodes = nodes.next
+            for word, cnt in counter.most_common():
+                docs.append(json.dumps(word, ensure_ascii=False))
+            labels.append(age)
+            data_train = dictionary(docs,age,estimator)
+            dates.append(data_train)
+    data_train_s, data_test_s, label_train_s, label_test_s = train_test_split(dates, labels, test_size=0.5)
+    print len(data_train_s)
+    print len(label_train_s)
+    estimator.fit(data_train_s, label_train_s)
+    print(estimator.score(data_test_s, label_test_s))
+def dictionary(docs,age,estimator):
+    dictionary = gensim.corpora.Dictionary([docs])
+    data_train=[]
+    for doc in docs:
+        tmp=dictionary.doc2bow([doc])
+        dense = list(gensim.matutils.corpus2dense([tmp], num_terms=len(dictionary)).T[0])
+        age_arr=[age]
+        data_train.append(dense)
+    return data_train
+```