未知のデータを統計モデル(一般化線形モデル)に当てはめて、予測値を算出したい　(交差検証：cross variation)

Question

### 前提・実現したいこと

Python、統計学初心者の者です。
仕事の関係で、下記のことをPythonで実現したいと考えております。

① あるデータをtrainデータとtestデータに分割する
② trainデータを用いて、GLM(一般化線形モデル)によるポアソン回帰モデルを作成する。
③ 上記のモデルにtestデータを代入し、testデータの実測値とモデルによる予測値を比較する
(交差検証：cross variation)



### 発生している問題・エラーメッセージ

まず、お弁当の需要予測(https://signate.jp/competitions/24)のデータを用いて、
上記の手法をトライしました。
Python初心者で思い通りのコードを書くことはできないので、
インターネットからコードのコピペを組み合わせて試行錯誤しました。
(https://tanuhack.com/statsmodels-multiple-lra/　を参考にしました。)

全データの半分をtrainデータ、半分をtestデータとしました。
気温を説明変数、お弁当の販売数を応答変数とするポアソン回帰モデルを作成しました。
①,②については成功しましたが、③がうまくいきません。
testデータをモデルに当てはめて予測値を出そうとすると、本来であれば103日(testデータの日数)の予測値が出力されるはずですが、たった5日間の予測値しか出力されません。
コードの誤り、修正すべき点があればご教授いただきたいです。
よろしくお願い申し上げます。


### 該当のソースコード

```Python
# 1. 必要なライブラリの読み込み
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.api as sm
from matplotlib import pyplot as plt


# 2. 使用するデータの読み込み
df = pd.read_csv("Desktop/Pyhton memo/trainmoji.csv", encoding="shift-jis")
df.head()

train = df[0:len(df)//2]

test = df.drop(train.index)

# 3. smf.glmで使うformula(線形予測子)とfamily(確率分布)を設定する
trainY = train['y']          # 目的変数：y

trainX = pd.get_dummies(train[[
   'temperature']]) # 説明変数
family = sm.families.Poisson()
trainX = sm.add_constant(trainX)

# 4. 先ほどの設定値を使って一般化線形モデルを作成
model = sm.GLM(trainY, trainX, family=family)

# 5. 作成したモデルを学習させる
result = model.fit()

# 6. 結果の表示
result.summary()

# 7. テストデータにモデルを当てはめて予測値を出力
testX =  pd.get_dummies(test[['temperature']]) # 説明変数
testX['const'] = 1.0 

pred = result.predict(testX)
test['pred'] = pred
test.head()
```

### 補足情報（FW/ツールのバージョンなど）

実際のjupyterの画面のスクリーンショットを添付しております。
![#1-#6のコードと出力結果](953ba147db269b5168d3045ec72aaf42.png)
![#7のコードと出力結果](25b87c3b3d5787b62e10baf14d838bc1.png)

Accepted Answer

pd.DataFrameのheadメソッドは引数で与えらえた行数を上から表示します。デフォルトではn=5なのでheadを引数なしで呼ぶと上五行が表示されます。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問