質問編集履歴
7
すみませんでした。インデントを修正しました。
title
CHANGED
File without changes
|
body
CHANGED
@@ -6,37 +6,35 @@
|
|
6
6
|
学習及び検証までは実施できましたが、この学習済みモデルに未知データ(学習、検証以外のデータ)を与えて、検証でやった正答率が正しいかを確認したいと思っていますが、以下エラーになり対処が分かりません。。(p_-)皆さんに教えていただければ幸いです。どうぞよろしくお願いします。m(__)m
|
7
7
|
|
8
8
|
#コード
|
9
|
-
※インデントが入らないため、$を入れています
|
10
|
-
|
9
|
+
```import csv
|
11
|
-
|
10
|
+
from janome.tokenizer import Tokenizer
|
12
11
|
|
13
|
-
|
12
|
+
documents = [] # 形態素用の配列を用意
|
14
|
-
|
13
|
+
t = Tokenizer()
|
15
|
-
|
14
|
+
y = [] # クラスラベル用の配列を用意
|
16
|
-
|
15
|
+
with open('./test.csv') as f:
|
17
|
-
|
16
|
+
reader = csv.reader(f)
|
18
|
-
|
17
|
+
next(reader)
|
19
|
-
|
18
|
+
for columns in reader:
|
20
|
-
|
19
|
+
y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
21
|
-
|
20
|
+
document = [] # 1行分の仮の配列を用意
|
22
|
-
|
21
|
+
for token in t.tokenize(columns[0]):
|
22
|
+
document.append(token.surface) # 仮の配列に形態素を追加
|
23
|
+
documents.append(' '.join(document))
|
23
24
|
|
24
|
-
|
25
|
+
import numpy as np
|
25
|
-
|
26
|
+
from sklearn.feature_extraction.text $import CountVectorizer
|
26
27
|
|
27
|
-
|
28
|
+
CountVect = CountVectorizer(min_df=1)
|
28
|
-
|
29
|
+
X = CountVect.fit_transform(documents)
|
29
30
|
|
30
|
-
$CountVect = CountVectorizer(min_df=1)
|
31
|
-
$X = CountVect.fit_transform(documents)
|
32
|
-
|
33
|
-
|
31
|
+
from sklearn.externals import joblib
|
34
|
-
|
35
|
-
|
32
|
+
clf2 = joblib.load('clf.pkl')
|
36
|
-
|
33
|
+
clf2.predict(X)
|
37
|
-
|
34
|
+
print(clf2.score(X, y))
|
38
|
-
|
35
|
+
```
|
39
36
|
#エラー内容
|
37
|
+
```
|
40
38
|
ValueError Traceback (most recent call last)
|
41
39
|
<ipython-input-38-8c6bc2aa9621> in <module>()
|
42
40
|
4
|
@@ -73,4 +71,5 @@
|
|
73
71
|
406
|
74
72
|
407 result = self._mul_multivector(np.asarray(other))
|
75
73
|
|
76
|
-
ValueError: dimension mismatch
|
74
|
+
ValueError: dimension mismatch
|
75
|
+
```
|
6
title
CHANGED
File without changes
|
body
CHANGED
@@ -21,7 +21,7 @@
|
|
21
21
|
$ document = [] # 1行分の仮の配列を用意
|
22
22
|
$ for token in t.tokenize(columns[0]):
|
23
23
|
|
24
|
-
$
|
24
|
+
$ document.append(token.surface) # 仮の配列に形態素を追加
|
25
25
|
$ documents.append(' '.join(document))
|
26
26
|
|
27
27
|
$import numpy as np
|
5
title
CHANGED
File without changes
|
body
CHANGED
@@ -6,34 +6,36 @@
|
|
6
6
|
学習及び検証までは実施できましたが、この学習済みモデルに未知データ(学習、検証以外のデータ)を与えて、検証でやった正答率が正しいかを確認したいと思っていますが、以下エラーになり対処が分かりません。。(p_-)皆さんに教えていただければ幸いです。どうぞよろしくお願いします。m(__)m
|
7
7
|
|
8
8
|
#コード
|
9
|
+
※インデントが入らないため、$を入れています
|
9
|
-
import csv
|
10
|
+
$import csv
|
10
|
-
from janome.tokenizer import Tokenizer
|
11
|
+
$from janome.tokenizer import Tokenizer
|
11
12
|
|
12
|
-
documents = [] # 形態素用の配列を用意
|
13
|
+
$documents = [] # 形態素用の配列を用意
|
13
|
-
t = Tokenizer()
|
14
|
+
$t = Tokenizer()
|
14
|
-
y = [] # クラスラベル用の配列を用意
|
15
|
+
$y = [] # クラスラベル用の配列を用意
|
15
|
-
with open('./test.csv') as f:
|
16
|
+
$with open('./test.csv') as f:
|
16
|
-
reader = csv.reader(f)
|
17
|
+
$ reader = csv.reader(f)
|
17
|
-
next(reader)
|
18
|
+
$ next(reader)
|
18
|
-
|
19
|
+
$ for columns in reader:
|
19
|
-
y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
20
|
+
$ y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
20
|
-
document = [] # 1行分の仮の配列を用意
|
21
|
+
$ document = [] # 1行分の仮の配列を用意
|
21
|
-
for token in t.tokenize(columns[0]):
|
22
|
+
$ for token in t.tokenize(columns[0]):
|
22
|
-
document.append(token.surface) # 仮の配列に形態素を追加
|
23
|
-
documents.append(' '.join(document))
|
24
23
|
|
25
|
-
|
24
|
+
$ document.append(token.surface) # 仮の配列に形態素を追加
|
26
|
-
|
25
|
+
$ documents.append(' '.join(document))
|
27
26
|
|
28
|
-
|
27
|
+
$import numpy as np
|
29
|
-
|
28
|
+
$from sklearn.feature_extraction.text $import CountVectorizer
|
30
29
|
|
30
|
+
$CountVect = CountVectorizer(min_df=1)
|
31
|
-
|
31
|
+
$X = CountVect.fit_transform(documents)
|
32
32
|
|
33
|
-
|
33
|
+
$from sklearn.externals import joblib
|
34
|
-
clf2.predict(X)
|
35
|
-
print(clf2.score(X, y))
|
36
34
|
|
35
|
+
$clf2 = joblib.load('clf.pkl')
|
36
|
+
$clf2.predict(X)
|
37
|
+
$print(clf2.score(X, y))
|
38
|
+
|
37
39
|
#エラー内容
|
38
40
|
ValueError Traceback (most recent call last)
|
39
41
|
<ipython-input-38-8c6bc2aa9621> in <module>()
|
4
title
CHANGED
File without changes
|
body
CHANGED
@@ -13,7 +13,7 @@
|
|
13
13
|
t = Tokenizer()
|
14
14
|
y = [] # クラスラベル用の配列を用意
|
15
15
|
with open('./test.csv') as f:
|
16
|
-
|
16
|
+
reader = csv.reader(f)
|
17
17
|
next(reader)
|
18
18
|
for columns in reader:
|
19
19
|
y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
3
title
CHANGED
File without changes
|
body
CHANGED
@@ -13,7 +13,7 @@
|
|
13
13
|
t = Tokenizer()
|
14
14
|
y = [] # クラスラベル用の配列を用意
|
15
15
|
with open('./test.csv') as f:
|
16
|
-
|
16
|
+
reader = csv.reader(f)
|
17
17
|
next(reader)
|
18
18
|
for columns in reader:
|
19
19
|
y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
2
title
CHANGED
File without changes
|
body
CHANGED
@@ -13,7 +13,7 @@
|
|
13
13
|
t = Tokenizer()
|
14
14
|
y = [] # クラスラベル用の配列を用意
|
15
15
|
with open('./test.csv') as f:
|
16
|
-
reader = csv.reader(f)
|
16
|
+
<reader = csv.reader(f)
|
17
17
|
next(reader)
|
18
18
|
for columns in reader:
|
19
19
|
y.append(columns[1]) # 仕事分類をクラスラベルとしてまとめる
|
1
title
CHANGED
File without changes
|
body
CHANGED
File without changes
|