回答編集履歴

解説を追加

2018/05/28 00:18

投稿

magichan

スコア15898

answer CHANGED Viewed

@@ -11,4 +11,81 @@
 data = pd.read_csv('in.csv')
 data['rms'] = data.iloc[:,0].rolling(window=window_size, min_periods=1, center=True).apply(rms)
 data.to_csv('out.csv', index=None)
-```
+```
+---
+**【補足】**
+簡単に説明します。
+まず [1,2,3,4,5,6,7,8,9] といった１次元配列(pandas.Series)があった場合、RMSは
+```Python
+import pandas as pd
+import numpy as np
+row_data = pd.Series([1,2,3,4,5,6,7,8,9])
+res = np.sqrt((row_data ** 2).sum() / row_data.size)
+print(res)
+#5.627314338711377
+```
+で求めることができますので、このRMSを求める式を ``lambda``で関数化しておいて
+```Python
+import pandas as pd
+import numpy as np
+row_data = pd.Series([1,2,3,4,5,6,7,8,9])
+rms = lambda d: np.sqrt((d ** 2).sum() / d.size)
+res = rms(row_data)
+print(res)
+#5.627314338711377
+```
+となります。
+次に、今回の質問のコードの場合、列全体のRMSを求めるのではなく一定区間のRMSをずらしながら求めることが要求されておりますので、この部分は``Series.rolling()`` を使用することになります。
+``Series.rolling()`` を簡単なサンプルで説明すると、例えば [1,2,3,4,5,6,7,8,9] といった１次元配列に対して``rolling().sum()`` を適用するとにより
+```Python
+row_data = pd.Series([1,2,3,4,5,6,7,8,9])
+res = row_data.rolling(window=3).sum()
+print(res)
+#0     NaN
+#1     NaN
+#2     6.0
+#3     9.0
+#4    12.0
+#5    15.0
+#6    18.0
+#7    21.0
+#8    24.0
+#dtype: float64
+```
+のように、一定区間（今回はwindow=3で指定した区間)毎の合計を求めることができます。
+今回の場合は一定区間毎の合計では無く、自作した関数（rms）を適用したいので、``Series.rolling().apply()``を使用して
+```Python
+row_data = pd.Series([1,2,3,4,5,6,7,8,9])
+rms = lambda d: np.sqrt((d ** 2).sum() / d.size)
+res = row_data.rolling(window=3).apply(rms)
+print(res)
+#0         NaN
+#1         NaN
+#2    2.160247
+#3    3.109126
+#4    4.082483
+#5    5.066228
+#6    6.055301
+#7    7.047458
+#8    8.041559
+#dtype: float64
+```
+となります。
+最後に、rollingのパラメータですが、上記の例では ``index=0,1`` の箇所の結果が``NaN``になっております。これはこの部分を計算するための入力データの数が区間数（Window=3）を満たしておらず計算が出来ないためです。そこで``min_periods=1`` をパラメータで渡し、入力データが最低でも１つあれば計算を行うよう指定しております。さらに上記の例では 入力データ``index=0,1,2``の結果が``index=2``に入っております。そこで``center=True``を渡す事により index=0,1,2の結果が index=1 に出力されるようにしております。
+以上です。