トップに関する質問テキスト分類のValueError: dimension mismatchの対処で困っています。。

編集履歴

質問編集履歴

すみませんでした。インデントを修正しました。

2017/07/23 12:21

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,37 +6,35 @@
 学習及び検証までは実施できましたが、この学習済みモデルに未知データ(学習、検証以外のデータ)を与えて、検証でやった正答率が正しいかを確認したいと思っていますが、以下エラーになり対処が分かりません。。(p_-)皆さんに教えていただければ幸いです。どうぞよろしくお願いします。m(__)m
 #コード
-※インデントが入らないため、$を入れています
-$import csv
+```import csv
-$from janome.tokenizer import Tokenizer
+from janome.tokenizer import Tokenizer
-$documents = []   # 形態素用の配列を用意
+documents = []   # 形態素用の配列を用意
-$t = Tokenizer()
+t = Tokenizer()
-$y = []           # クラスラベル用の配列を用意
+y = []           # クラスラベル用の配列を用意
-$with open('./test.csv') as f:
+with open('./test.csv') as f:
-$    reader = csv.reader(f)
+    reader = csv.reader(f)
-$    next(reader)
+    next(reader)
-$     for columns in reader:
+    for columns in reader:
-$        y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
+        y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
-$        document = [] # 1行分の仮の配列を用意
+        document = [] # 1行分の仮の配列を用意
-$        for token in t.tokenize(columns[0]):
+            for token in t.tokenize(columns[0]):
+            document.append(token.surface) # 仮の配列に形態素を追加
+        documents.append(' '.join(document))
-$        document.append(token.surface) # 仮の配列に形態素を追加
+import numpy as np
-$        documents.append(' '.join(document))
+from sklearn.feature_extraction.text $import CountVectorizer
-$import numpy as np
+CountVect = CountVectorizer(min_df=1)
-$from sklearn.feature_extraction.text $import CountVectorizer
+X = CountVect.fit_transform(documents)
-$CountVect = CountVectorizer(min_df=1)
-$X = CountVect.fit_transform(documents)
-$from sklearn.externals import joblib
+from sklearn.externals import joblib
-$clf2 = joblib.load('clf.pkl')
+clf2 = joblib.load('clf.pkl')
-$clf2.predict(X)
+clf2.predict(X)
-$print(clf2.score(X, y))
+print(clf2.score(X, y))
+```
 #エラー内容
+```
 ValueError                                Traceback (most recent call last)
 <ipython-input-38-8c6bc2aa9621> in <module>()
       4
@@ -73,4 +71,5 @@
     406
     407             result = self._mul_multivector(np.asarray(other))
-ValueError: dimension mismatch
+ValueError: dimension mismatch
+```

2017/07/23 12:21

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -21,7 +21,7 @@
 $        document = [] # 1行分の仮の配列を用意
 $        for token in t.tokenize(columns[0]):
-$         document.append(token.surface) # 仮の配列に形態素を追加
+$        document.append(token.surface) # 仮の配列に形態素を追加
 $        documents.append(' '.join(document))
 $import numpy as np

2017/07/22 04:31

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,34 +6,36 @@
 学習及び検証までは実施できましたが、この学習済みモデルに未知データ(学習、検証以外のデータ)を与えて、検証でやった正答率が正しいかを確認したいと思っていますが、以下エラーになり対処が分かりません。。(p_-)皆さんに教えていただければ幸いです。どうぞよろしくお願いします。m(__)m
 #コード
+※インデントが入らないため、$を入れています
-import csv
+$import csv
-from janome.tokenizer import Tokenizer
+$from janome.tokenizer import Tokenizer
-documents = []   # 形態素用の配列を用意
+$documents = []   # 形態素用の配列を用意
-t = Tokenizer()
+$t = Tokenizer()
-y = []           # クラスラベル用の配列を用意
+$y = []           # クラスラベル用の配列を用意
-with open('./test.csv') as f:
+$with open('./test.csv') as f:
-    reader = csv.reader(f)
+$    reader = csv.reader(f)
-    next(reader)
+$    next(reader)
-    for columns in reader:
+$     for columns in reader:
-        y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
+$        y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
-        document = [] # 1行分の仮の配列を用意
+$        document = [] # 1行分の仮の配列を用意
-        for token in t.tokenize(columns[0]):
+$        for token in t.tokenize(columns[0]):
-            document.append(token.surface) # 仮の配列に形態素を追加
-        documents.append(' '.join(document))
-import numpy as np
+$         document.append(token.surface) # 仮の配列に形態素を追加
-from sklearn.feature_extraction.text import CountVectorizer
+$        documents.append(' '.join(document))
-CountVect = CountVectorizer(min_df=1)
+$import numpy as np
-X = CountVect.fit_transform(documents)
+$from sklearn.feature_extraction.text $import CountVectorizer
+$CountVect = CountVectorizer(min_df=1)
-from sklearn.externals import joblib
+$X = CountVect.fit_transform(documents)
-clf2 = joblib.load('clf.pkl')
+$from sklearn.externals import joblib
-clf2.predict(X)
-print(clf2.score(X, y))
+$clf2 = joblib.load('clf.pkl')
+$clf2.predict(X)
+$print(clf2.score(X, y))
 #エラー内容
 ValueError                                Traceback (most recent call last)
 <ipython-input-38-8c6bc2aa9621> in <module>()

2017/07/22 04:30

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,7 +13,7 @@
 t = Tokenizer()
 y = []           # クラスラベル用の配列を用意
 with open('./test.csv') as f:
-  reader = csv.reader(f)
+    reader = csv.reader(f)
     next(reader)
     for columns in reader:
         y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる

2017/07/22 04:24

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,7 +13,7 @@
 t = Tokenizer()
 y = []           # クラスラベル用の配列を用意
 with open('./test.csv') as f:
-    <reader = csv.reader(f)
+  reader = csv.reader(f)
     next(reader)
     for columns in reader:
         y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる

2017/07/22 04:23

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -13,7 +13,7 @@
 t = Tokenizer()
 y = []           # クラスラベル用の配列を用意
 with open('./test.csv') as f:
-    reader = csv.reader(f)
+    <reader = csv.reader(f)
     next(reader)
     for columns in reader:
         y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる

2017/07/22 04:22

投稿

Ya.Tatsuro

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes