質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

受付中

Pythonで機械学習を行っているのですが、エラーがでてしまい困っています

Zarame
Zarame

総合スコア0

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

1回答

0リアクション

0クリップ

407閲覧

投稿2021/07/26 14:08

前提・実現したいこと

機械学習で為替の予測をしているのですが、特徴量であるADXRを用いて学習をさせようとしたら、エラーメッセージがでてしまい先に進めることができません。

発生している問題・エラーメッセージ

ValueError Traceback (most recent call last) <ipython-input-19-82ba81b7b0d8> in <module> 135 #訓練用の説明変数と正解クラス、評価用の説明変数と正解クラスに分割 136 for i in range(10): --> 137 X_train,X_test,Y_train,Y_test = train_test_split(df_xy[["ADXR"]],df_xy["前日比_classified"],train_size=0.8) 138 139 clf = RandomForestClassifier(max_depth=30,n_estimators=50) ~\miniconda3\lib\site-packages\sklearn\model_selection\_split.py in train_test_split(*arrays, **options) 2129 n_samples = _num_samples(arrays[0]) 2130 n_train, n_test = _validate_shuffle_split(n_samples, test_size, train_size, -> 2131 default_test_size=0.25) 2132 2133 if shuffle is False: ~\miniconda3\lib\site-packages\sklearn\model_selection\_split.py in _validate_shuffle_split(n_samples, test_size, train_size, default_test_size) 1812 'resulting train set will be empty. Adjust any of the ' 1813 'aforementioned parameters.'.format(n_samples, test_size, -> 1814 train_size) 1815 ) 1816 ValueError: With n_samples=0, test_size=None and train_size=0.8, the resulting train set will be empty. Adjust any of the aforementioned parameters.

該当のソースコード

Python3

import numpy as np import pandas as pd import talib as ta import matplotlib.pyplot as plt df = pd.read_csv('USD_JPY 10-14.csv') open = np.array(df["始値"]) close = np.array(df["終値"]) high = np.array(df["高値"]) low = np.array(df["安値"]) #特徴量を格納するデータフレーム df_feature = pd.DataFrame(index=range(len(df)),columns=["ADXR","APO","AROON","AROONOSC","BOP","CCI","CMO","DX","MACDEXT","MACDFIX","MFI","MINUS_DI","MINUS_DM","MOM","PPO"]) #MACD df_feature["MACD"],_,_ = ta.MACD(close,fastperiod = 12,slowperiod = 26,signalperiod = 9) #ボリンジャーバンド upper,middle,lower = ta.BBANDS(close,timeperiod = 5,nbdevup = 2,nbdevdn = 2,matype = 0) df_feature["BBANDS+2σ"] = upper/close df_feature["BBANDS-2σ"] = lower/close #RSI df_feature["RSI"] = ta.RSI(close, timeperiod=14) #SMA5/current df_feature["SMA5/current"]= ta.SMA(close, timeperiod=5) / close df_feature["SMA20/current"]= ta.SMA(close, timeperiod=20) / close #TEMA df_feature["TEMA"]= ta.TEMA(close, timeperiod=30) #WMA df_feature["WMA"]= ta.WMA(close, timeperiod=30) #MIDPOINT df_feature["MIDPOINT"]= ta.MIDPOINT(close, timeperiod=14) #ADX df_feature["ADX"]= ta.ADX(high,low,close, timeperiod=14) #DEMA df_feature["DEMA"]= ta.DEMA(close, timeperiod=30) #EMA df_feature["EMA"]= ta.EMA(close, timeperiod=30) #HT_TRENDLINE df_feature["HT_TRENDLINE"]= ta.HT_TRENDLINE(close) #KAMA df_feature["KAMA"]= ta.KAMA(close, timeperiod=30) #MA df_feature["MA"]= ta.MA(close, timeperiod=30, matype=0) #MIDPRICE df_feature["MIDPRICE"]= ta.MIDPRICE(high, low, timeperiod=14) #SAR df_feature["SAR"]= ta.SAR(high, low, acceleration=0, maximum=0) #ADXR df_feature["ADXR"]= ta.ADXR(high, low, close, timeperiod=14) #APO df_feature["APO"]= ta.APO(close, fastperiod=12, slowperiod=26, matype=0) #AROON #df_feature["AROON"]= ta.AROON(high, low, timeperiod=14) #AROONOSC df_feature["AROONOSC"]= ta.AROONOSC(high, low, timeperiod=14) #BOP df_feature["BOP"]= ta.BOP(open, high, low, close) #CCI df_feature["CCI"]= ta.CCI(high, low, close, timeperiod=14) #CMO df_feature["CMO"]= ta.CMO(close, timeperiod=14) #DX df_feature["DX"]= ta.DX(high, low, close, timeperiod=14) #MACDEXT #df_feature["MACDEXT"]= ta.MACDEXT(close, fastperiod=12, fastmatype=0, slowperiod=26, slowmatype=0, signalperiod=9, signalmatype=0) #MACDFIX #df_feature["MACDFIX"]= ta.MACDFIX(close, signalperiod=9) #MFI #df_feature["MFI"]= ta.MFI(high, low, close, volume, timeperiod=14) #教師データ df["前日比_float"] = df["前日比%"].apply(lambda x: float(x.replace("%",""))) def classify(x): if x <= -0.2: return 0 elif -0.2 < x < 0.2: return 1 elif 0.2 <= x: return 2 df["前日比_classified"] = df["前日比_float"].apply(lambda x: classify(x)) df_y = df["前日比_classified"].shift() df_xy = pd.concat([df_feature, df_y],axis = 1) df_xy = df_xy.dropna(how = "any") from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score import optuna list = [] list2 = [] list3 = [] sum = 0 sum2 = 0 sum3 = 0 #訓練用の説明変数と正解クラス、評価用の説明変数と正解クラスに分割 for i in range(10): X_train,X_test,Y_train,Y_test = train_test_split(df_xy[["ADXR"]],df_xy["前日比_classified"],train_size=0.8) clf = RandomForestClassifier(max_depth=30,n_estimators=50) clf.fit(X_train, Y_train) print("訓練セットの精度"+str(i+1)+"回目: {:.3f}".format(clf.score(X_train, Y_train))) print("テストセットの精度"+str(i+1)+"回目: {:.3f}".format(clf.score(X_test, Y_test))) sum += round(clf.score(X_test, Y_test),3) list.insert(i,round(clf.score(X_test, Y_test),3)*100) print(list) print("合計:",sum) ave = round(sum/10,3) print("平均:",ave) for j in range(10): X_train,X_test,Y_train,Y_test = train_test_split(df_xy[["ADXR"]],df_xy["前日比_classified"],train_size=0.8) clf = RandomForestClassifier(max_depth=30,n_estimators=50) clf.fit(X_train, Y_train) print("訓練セットの精度"+str(j+1)+"回目: {:.3f}".format(clf.score(X_train, Y_train))) print("テストセットの精度"+str(j+1)+"回目: {:.3f}".format(clf.score(X_test, Y_test))) sum2 += round(clf.score(X_test, Y_test),3) list2.insert(j,round(clf.score(X_test, Y_test),3)*100) print(list2) print("合計:",sum2) ave2 = round(sum2/10,3) print("平均:",ave2) for k in range(10): X_train,X_test,Y_train,Y_test = train_test_split(df_xy[["ADXR"]],df_xy["前日比_classified"],train_size=0.8) clf = RandomForestClassifier(max_depth=30,n_estimators=50) clf.fit(X_train, Y_train) print("訓練セットの精度"+str(k+1)+"回目: {:.3f}".format(clf.score(X_train, Y_train))) print("テストセットの精度"+str(k+1)+"回目: {:.3f}".format(clf.score(X_test, Y_test))) sum3 += round(clf.score(X_test, Y_test),3) list3.insert(k,round(clf.score(X_test, Y_test),3)*100) print(list3) print("合計:",sum3) ave3 = round(sum3/10,3) print("平均:",ave3) alist = (list,list2,list3) fig, ax = plt.subplots() bp = ax.boxplot(alist) ax.set_xticklabels(['30:50','30:100','30:150']) plt.title('2010-2014') plt.xlabel('parameter(max_depth:estimators)') plt.ylabel('accuracy') plt.ylim([20,50]) plt.grid()

試したこと

ネットで調べたのですが詳しいことがわからず、困っています。
原因を教えてもらえないでしょうか?
よろしくお願いします。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。