SCOREに関与している情報を調べたいです。
test2.json に
{"ID":"AW0495","NAME":"Tom","AGE":"30","SCORE":"A","ADRESS":"NY","INCOME":200,"STATUS":0,"CAR":1,"HOUSE":1} {"ID":"SE2947","NAME":"John","AGE":"21","SCORE":"C","ADRESS":"NY","INCOME":500,"STATUS":0,"CAR":1,"HOUSE":0} ・ ・ ・ {"ID":"AW0495","NAME":"Tom","AGE":"61","SCORE":"B","ADRESS":"CF","INCOME":320,"STATUS":1,"CAR":0,"HOUSE":1}
と およそ1万件のjsonデータがあります。
import pandas as pd import numpy as np from sklearn.cluster import KMeans import json with open('test2.json','r') as f: js = '[' + ','.join(f) + ']' print(js) df = pd.read_json(js,orient='records') dummy_df = pd.get_dummies(df[['SCORE','ADRESS']], drop_first = True) df2 = pd.merge(df, dummy_df, left_index=True, right_index=True) X = df2.drop(['ADRESS', 'ID','NAME', 'SCORE'],1)
とコードを書いて質量変数をダミー変数に変換しました。
Xの状態は、
のようになっています。今、スコアはA(良い)〜D(悪い)で4段階にランク分けしており、スコアが高くなる(=Aに近くなる)要因が何かをAGE・ADRESS・INCOME・STATUS・CAR・HOUSEの中から探したいです。ダミー変数になっているところは、1はありで0はなし、という意味です。
やりたいことはhttp://www.randpy.tokyo/entry/python_glm のページと似ているのですが、この後どうコードを書けばいいのかわかりません。
どのようにコードを書けば、SCOREに関与している情報を調べられますか?
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。