###前提・実現したいこと
当方python初心者です。pythonを用いてTwitterのプロフィール文から2クラス分類をする識別機を作成したいと考えています。現在教師データとラベルをライブラリに引き渡して機械学習をさせようとしている段階なのですが、エラーが発生しており困っています。詳しい方どうかお力添えお願い致します。
###発生している問題・エラーメッセージ
ValueError: Found input variables with inconsistent numbers of samples: [12241,600]
###該当のソースコード
#TwitterIDからプロフィール文を取得、形態素解析 for num in range(2): if num == 1: sheet = sheet_2 for row in range(sheet.nrows): val = sheet.cell(row,col).value i = i+1 print (val) params = { "screen_name": val } responce = oath.get(url,params = params) tweet = json.loads(responce.text) user_description = tweet['description'] print("users_desc:",user_description) tokens = l.tokenize(user_description) #形態素解析及び名詞抽出 for token in tokens: partOfSpeech = token.part_of_speech.split(',')[0] if partOfSpeech == u'名詞': each_words.append(token.surface) words.append(each_words) each_words = [] #ラベルを記述したリストを作成 if num == 1: label.append(0) else: label.append(1) #名詞群をリスト化 for row in range(len(words)): for j in range(len(words[row])): print(words[row][j]) list.append(words[row][j]) #countvectorに変換 count_vectorizer = CountVectorizer() feature_vectors = count_vectorizer.fit_transform(list) print("word数:" + str(len(feature_vectors.toarray()[0]))) vocabrary = count_vectorizer.get_feature_names() print (count_vectorizer.get_feature_names) print(feature_vectors.toarray()) clf.fit(feature_vectors.toarray(),label)
本質に関わらない部分は除外したコードです
###試したこと
そもそもネットで拾い読みしたものを試しているようなものなのでどう対応したらいいのか分からないというのが正直なところです。
ちなみに print(feature_vectors.toarray()) の部分では
[[ 0 0 0 ... 0 0 0]
[ 0 0 0 ... 0 0 0]
[ 0 0 0 ... 0 0 0]
[ 0 0 0 ... 0 0 0]]
のように各単語の出現頻度を表す多次元配列が見て取れます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/12/13 08:31
2017/12/13 08:50
2017/12/14 02:47