###前提・実現したいこと
以下の自然言語データ(仕事内容、職種分類)をjanomeで形態素解析し、
CountVectorizerで行列化し、sklearn.naive_bayes(MultinomialNB)で学習させ、
仕事内容から職種分類を予測したいです。
(できれば、対象データを分けての検証も行いたいです)
【CSV(Book.csv)】 ※参考例
sigotonaiyo,syokusyu
オフィスの掃除を担当します,清掃スタッフ
コールセンターでのアポインター,コールセンタースタッフ
機械部品の組み立て,工場内スタッフ
居酒屋で注文を取ったり、配膳もします,居酒屋ホール
###発生している問題・エラーメッセージ
すみません、素人で色々WEBで調べたのですが、いきずまってしまい。。
形態素解析まではできたのですが、その後の行列化、学習で困っています。。
皆さんに教えていただければ幸いです。どうぞよろしくお願いします。
###該当のソースコード
python3.6
# -*- coding: utf-8 -*- import csv from janome.tokenizer import Tokenizer import numpy as np from sklearn.naive_bayes import MultinomialNB from sklearn.feature_extraction.text import CountVectorizer t = Tokenizer() with open('Book.csv') as f: reader = csv.reader(f) next(reader) for columns in reader: for i in t.tokenize(columns[0]): print(i) CountVect = CountVectorizer(min_df=1) X_count = CountVect.fit_transform(???) X = data[:, :-1] y = data[:, -1] clr = NaiveBayes1() clr.fit(X, y)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/06/18 22:43
2017/06/19 06:34 編集
2017/06/20 11:26