回答編集履歴

誤字

2020/02/11 03:58

投稿

gusachan3

スコア16

answer CHANGED Viewed

@@ -31,7 +31,7 @@
 import datetime
 # データの保存場所を指定
-# この場合は、C:/Users/s-sug/Anaconda3/linear_regression/ を読み書きする
+# この場合は、C:/Users/hoge/Anaconda3/linear_regression/ を読み書きする
 WORK_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/'
 DATA_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/data/'

字句の校正

2020/02/11 03:58

投稿

gusachan3

スコア16

answer CHANGED Viewed

@@ -19,7 +19,7 @@
 Notebook を再起動したときは各ブロックのimport したライブラリを、[run] ボタンでリロードしてますか。一応、写経したコードを貼っておきます。
 追記)
-エラーが出たので、tqdm, datetime のインポート表記を変更・追加をしました。
+エラーが出た箇所の、tqdm, datetime のインポート表記を変更・追加をしました。
 ```Python3
 from IPython.core.display import display

コードの追加

2020/02/11 02:51

投稿

gusachan3

スコア16

answer CHANGED Viewed

@@ -18,10 +18,134 @@
 ```
 Notebook を再起動したときは各ブロックのimport したライブラリを、[run] ボタンでリロードしてますか。一応、写経したコードを貼っておきます。
+追記)
+エラーが出たので、tqdm, datetime のインポート表記を変更・追加をしました。
 ```Python3
-DATA_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/data/' # (パスは適宜変えてください)
+from IPython.core.display import display
-DATA_CHAPTER1 = 'C:/Users/hoge/Anaconda3/data/download_data/' # (パスは適宜変えてください)
+from os import path
+import re
+import pandas as pd
+import numpy as np
+from tqdm.notebook import tqdm
+import datetime
+# データの保存場所を指定
+# この場合は、C:/Users/s-sug/Anaconda3/linear_regression/ を読み書きする
+WORK_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/'
+DATA_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/data/'
+DATA_CHAPTER1 = 'C:/Users/hoge/Anaconda3/data/download_data/'
+daily_data = pd.read_pickle(f"{DATA_CHAPTER1}daily_data.pickle")
+# 銘柄ごとに計算するため、証券コード（SC）で集計する
+groups = daily_data.groupby('SC')
+data_set = []
+for security, values in tqdm(groups):
+    # 全体の10％以上の取引日で取引のない銘柄は無視する
+    if values['株価'].isnull().sum() > values.shape[0]*0.1:
+        continue
+    # 一時的に market_value 列を作って計算する
+    # 証券コード（SC）1、2 は株価指数を表しているので、単純に指数値を入れる
+    if security in {1, 2}:
+        values = values.assign(market_value = lambda x: x['株価'])
+    else:
+        values = values.assign(market_value = lambda x: x['時価総額（百万円）'])
+    # calculation return
+    values = values.sort_values('日時') # 時系列でソート
+    values['収益率'] = values['market_value'].pct_change() # 変化率の計算
+    values.drop(columns = ['market_value']) # 一時的な列を削除
+    data_set.append(values)
+daily_data_adj = pd.concat(data_set) # 銘柄ごとに計算したものを結合
+# 極端な値を外れ値として削除。ここでは上下 0.1％ を外れ値とする
+threshold = 0.001
+lower = daily_data_adj['収益率'].quantile(threshold)
+upper = daily_data_adj['収益率'].quantile(1-threshold)
+daily_data_adj = daily_data_adj[
+    (lower < daily_data_adj['収益率']) & (daily_data_adj['収益率'] < upper)
+].copy()
+#############################################################
+jgb_path = f'{DATA_DIR}risk_free_rate/jgbcm_all.csv'
+risk_free_rate = pd.read_csv(
+    jgb_path,
+    skiprows=1,
+    usecols=['基準日', '10年'],
+    parse_dates=['基準日'],
+    encoding='sjis',
+    index_col=['基準日'],
+    na_values='-'
+)
+risk_free_rate = risk_free_rate['10年'].apply(
+    # 半年複利（％表記）を日時対数収益率に変換
+    lambda x: np.log(1 + 0.01 * 0.5 * x) / 125
+).apply(
+    # 単利へ変換
+    lambda x: np.exp(x) -1
+)
+risk_free_rate.rename('安全資産利子率', inplace=True)
+risk_free_rate.index.rename('日時', inplace=True)
+risk_free_rate = pd.DataFrame(risk_free_rate)
+# 出力して結果を確認
+display(risk_free_rate.dropna().head())
+############################################################
+stock_return_and_risk_free_return = pd.merge(
+    daily_data_adj[daily_data_adj['SC'] > 2],
+    risk_free_rate, on='日時'
+)
+# SC と日時を index にする
+stock_return_and_risk_free_return.set_index(
+    ['SC', '日時'],
+    verify_integrity=True,
+    inplace=True
+)
+# 出力して結果を確認
+display(stock_return_and_risk_free_return.head())
+############################################################
+# 日時で集計
+group_by_date = stock_return_and_risk_free_return.groupby('日時')
+data_with_market_returns = []
+for date, values in tqdm(group_by_date):
+    sum_of_market_capital = values['時価総額（百万円）'].sum()
+    values = values.assign(
+        # retuen がすべて null なら null にする
+        市場収益率 = lambda x: (
+            x['収益率'] * (x['時価総額（百万円）'] / sum_of_market_capital)
+        ).sum(
+            min_count=1
+        )
+    )
+    data_with_market_returns.append(values)
+data_with_market_returns = pd.concat(data_with_market_returns)
+display(data_with_market_returns.head())
+############################################################
+data_with_excess_returns = data_with_market_returns.assign(
+    超過収益率 = lambda x: x['収益率'] -x['安全資産利子率'],
+    市場超過収益率 = lambda x: x['市場収益率'] -x['安全資産利子率']
+)
+###########################################################
 # 扱いやすくするために index を通常の列に戻す
 temporary_data_excess_returns = data_with_excess_returns.reset_index()

コードの追加

2020/02/11 02:48

投稿

gusachan3

スコア16

answer CHANGED Viewed

@@ -15,4 +15,95 @@
         )
     )
     temporary_list.append(aligned)
+```
+Notebook を再起動したときは各ブロックのimport したライブラリを、[run] ボタンでリロードしてますか。一応、写経したコードを貼っておきます。
+```Python3
+DATA_DIR = 'C:/Users/hoge/Anaconda3/linear_regression/data/' # (パスは適宜変えてください)
+DATA_CHAPTER1 = 'C:/Users/hoge/Anaconda3/data/download_data/' # (パスは適宜変えてください)
+# 扱いやすくするために index を通常の列に戻す
+temporary_data_excess_returns = data_with_excess_returns.reset_index()
+# read financial data
+financial_data = pd.read_pickle(
+    f'{DATA_CHAPTER1}financial_data_all.pickle'
+)
+# 利用しない列を削除
+financial_data.drop(
+    columns=['発行済株式数', '日時'],
+    inplace=True
+)
+# 決算発表日の株価データとマージできるように、株価データに決算発表日を張る
+group_by_security = temporary_data_excess_returns.groupby('SC')
+temporary_list = []
+for security, values in tqdm(group_by_security):
+    # 財務データから決算発表日を取得
+    # 例： array(
+    #         ['2016-05-11T00:00:00.000000000', '2017-05-T00:00:00.000000000'],
+    #         dtype='datetime64[ns]'
+    #         )
+    announcement_dates = financial_data[
+            '決算発表日（本決算）'
+        ][
+            financial_data.SC == security
+        ].dropna().unique()
+    # 古いソートにして np.array に戻す
+    announcement_dates = pd.Series(announcement_dates).sort_values().values
+    # 収益率データの「日時」が含まれる決算期を意味するカテゴリカル変数を作る
+    # 例：「日時」が 2016-05-11 より前 → 欠損値、
+    # 　　「日時」が 2016-05-11 ～ 2017-05-11 → 2016-05-11、など
+    aligned = values.assign(
+        announcement_date = lambda x: pd.cut(
+            x['日時'],
+            (
+                list(announcement_dates)
+            ) + [np.datetime64(values['日時'].max() + pd.offsets.Day())],
+            labels = announcement_dates,
+            right=False
+        ).astype(
+            np.datetime64
+        )
+    )
+    temporary_list.append(aligned)
+temporary_data_excess_returns = pd.concat(temporary_list)
+temporary_data_excess_returns.rename(
+    columns = {'announcement_date':'決算発表日（日時）'},
+    inplace=True
+)
+del temporary_list
+# 財務データを決算発表日について一意にする
+financial_data = financial_data.groupby(
+    ['SC', '決算発表日（本決算）']
+).first().reset_index()
+excess_returns_with_financial_data = pd.merge(
+    temporary_data_excess_returns,
+    financial_data,
+    left_on=['SC', '名称', '決算発表日（日時）'],
+    right_on=['SC', '名称', '決算発表日（本決算）'],
+    how='left'
+)
+excess_returns_with_financial_data.set_index(
+    ['SC', '日時'],
+    inplace=True,
+    verify_integrity=True
+)
+del temporary_data_excess_returns
+# データを pickle で保存
+excess_returns_with_financial_data.to_pickle(
+    f'{DATA_DIR}excess_returns_with_financial_data.pickle'
+)
 ```

コード挿入

2020/02/09 12:45

投稿

gusachan3

スコア16

answer CHANGED Viewed

@@ -1,6 +1,7 @@
 [TensorFlowではじめる 株式投資のためのディープラーニング](https://www.amazon.co.jp/gp/product/4798055913/ref=ppx_yo_dt_b_asin_title_o02_s00?ie=UTF8&psc=1)    ですね。(p.92)
 本の通りにやったらできましたよ。以下のコードが欠損してますが大丈夫ですか？
+```python3
     aligned = values.assign(
         announcement_date = lambda x: pd.cut(
             x['日時'],
@@ -13,4 +14,5 @@
             np.datetime64
         )
     )
-    temporary_list.append(aligned)
+    temporary_list.append(aligned)
+```