重回帰分析ライブラリのstatsmodelsでのmodel.fit()の処置がTypeErrorになってしまう

Question

### 前提・実現したいこと現在、重回帰分析を利用したコードを作成しており、statsmodelsを使用して開発をしています。問題は、model.fit()の段階で以下のエラーが起きてしまったことです。調べてもあまり正解がつかめず、手詰まり状態です。おかしな点や間違っている点などがありましたら、ご教授して頂けると幸いです。前提として。 ①データは、小数点の数値が格納されています。（＋,ーを含む（標準化済み）） ②カラムは、英字です。 ③「説明変数の削除」での、float型以外の削除では文字を含むデータを削除するために記述しました。 ### 発生している問題・エラーメッセージ ``` Traceback (most recent call last): File "c:/Users/UserName/Desktop/Test/test.py", line 93, in result = model.fit() File "C:\Users\UserName\anaconda3\lib\site-packages\statsmodels\regression\linear_model.py", line 313, in fit beta = np.dot(self.pinv_wexog, self.wendog) File "<__array_function__ internals>", line 5, in dot TypeError: can't multiply sequence by non-int of type 'float' ``` ### 該当のソースコード ```python # -*- coding: utf-8 -*- from sklearn.preprocessing import StandardScaler import numpy as np import pandas as pd import statsmodels.api as sm #>-------------------------------------------------------------------------------< # データ読み込み　と　ノイズの削除 #>-------------------------------------------------------------------------------< df = pd.read_csv("c:\Users\UserName\Desktop\Test\csv\sheet1.csv", encoding='UTF-8', sep=",") # print(df) x = 5 # ヘッダーの行をxに入力 header = df.iloc[x-2] # ヘッダー情報 # print(header) y = 8 # データ開始の行をyに入力 deta_df = df.iloc[y-2:] # データ情報 deta_df = pd.DataFrame(deta_df) # DF化 # print(deta_df) deta_df.columns = header # ヘッダーを追加 # print(df) #>-------------------------------------------------------------------------------< #欠損値の処理 #>-------------------------------------------------------------------------------< dammy_df = deta_df.dropna(how='all').dropna(how='all', axis=1) # 行列のすべてがNaNの部分を削除 df = dammy_df.dropna(how='any') # 行にNaNが含まれていたら削除 df = df.reset_index(drop=True) # indexの振り直し # print(df) #>-------------------------------------------------------------------------------< # 変数の格納 (col:説明変数, res:目的変数) #>-------------------------------------------------------------------------------< res_col = 'rate' # 目的変数（カラム名）を入力 # 説明変数と目的変数を格納 res = np.array(df[res_col]) col_name = [item for item in df.columns if item != res_col] # print(col_name) #>-------------------------------------------------------------------------------< # 説明変数の削除 #>-------------------------------------------------------------------------------< # 削除するカラムリスト to_remove = [] # float型以外の削除（文字情報のデータは未対応） for col, item in df.iteritems(): try: df[col].astype('float64') except: to_remove.append(col) # print(to_remove) for r in to_remove: df = df.drop(r, axis=1) col_name.remove(r) # print(df) # print(col_name) #>-------------------------------------------------------------------------------< # 標準化 #>-------------------------------------------------------------------------------< scaler = StandardScaler() scaler.fit(np.array(df)) df_std = scaler.transform(np.array(df)) df_std = pd.DataFrame(df_std, columns=df.columns) # print(df_std) #>-------------------------------------------------------------------------------< # 学習　と　結果 #>-------------------------------------------------------------------------------< x = np.array(sm.add_constant(df_std[col_name])) model = sm.OLS(res, x) result = model.fit() print(result.summary()) ```

Accepted Answer

「質問への修正依頼欄」のjbpb0さんから、ご教授して頂きました。修正内容は以下の通りになります >----------------------------------------------------------< res = np.array(df[res_col]) ↓ 変更 res = np.array(df[res_col].astype('float64')) >----------------------------------------------------------< 回答してくださった皆様、ご協力ありがとうございました！

Answer

> can't multiply sequence by non-int of type 'float'

「df['rate']」に数値しか入ってないと分かってるのなら
```python
res = np.array(df[res_col])
```
↓ 変更
```python
res = np.array(df[res_col].astype('float64'))
```

Answer

```python
y = 8                           # データ開始の行をyに入力
deta_df = df.iloc[y-2:]         # データ情報
deta_df = pd.DataFrame(deta_df) # DF化
```
を

```python
y = 8                           # データ開始の行をyに入力
deta_df = df.iloc[y-2:].astype(float)         # データ情報
deta_df = pd.DataFrame(deta_df) # DF化
```
とすれば動くかもしれません。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問