質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

解決済

SVMによる多クラス分類で予測すると、すべて同じクラスに分類される

pura
pura

総合スコア7

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

2回答

0評価

1クリップ

7618閲覧

投稿2018/03/21 17:38

編集2018/03/21 17:40

発生している問題・エラーメッセージ

当方、農作物の研究をしております。 過去十数年にわたり国内約100か所で気象データや土壌の状態に関する指標約80種を調査した結果がexcelのinputシートに、 また同年の収穫時期(1:9月上旬、2:9月中旬・・・6:月下旬として、多クラス分類されてます)を調査した結果が 同じブック内のanswerシートにそれぞれ約2000件入力されています。 これら80種の指標と収穫時期の関係をSVMで学習して当年の収穫時期の予測に活用できないかを試しており、以下を記述したところ、 得られるtest_dataの回答がすべて同じクラスになってしまいます。

該当のソースコード

python3 import pandas as pd import numpy as np from sklearn import svm, metrics, cross_validation from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix from mlxtend.plotting import plot_decision_regions filename = "gloth.xlsx" input_sheet_name = "input" answer_sheet_name = "answer" input_book = pd.read_excel(filename, sheet_name=input_sheet_name) answer_book = pd.read_excel(filename, sheet_name=answer_sheet_name) new_input_book = input_book.drop(0, axis=0) #inputシートの0行目はデータ収集中のため、除外していいます。 new_answer_book = answer_book.drop(0, axis=0) #answerシートの0行目はデータ未調査で空欄のため、除外しています。 xlsx_data = new_input_book[["MAX_TEM","MIN_TEM"・・・,"SEIIKU_1","SEIIKU_2"]] #指標はinputシートに80種程度入力しています xlsx_label = new_answer_book[["Group"]] #収穫時期は多クラス分類してanswerシートに入力しています train_data, test_data, train_label, test_label = cross_validation.train_test_split(xlsx_data, xlsx_label,test_size=0.2) clf = svm.SVC(kernel='rbf', gamma=1/80, C=10.0) clf.fit(train_data, train_label.values.ravel()) pre = clf.predict(test_data) ac_score = metrics.accuracy_score(test_label, pre) print("正解率=", ac_score)

試したこと

print(pre)
でtest_dataの予測結果を確認したところ、いずれのデータの予測もすべて「1」として分類されているため、
正解率は16~20%と大変低くなってしまいます。

補足情報(FW/ツールのバージョンなど)

プログラムは、jupyter notebookで記述しています。
機械学習の勉強を始めて1か月程度の素人です。
不足している情報がありましたら
お伝えしたいと思いますので、よろしくお願いします。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。