R言語ですが以下のプログラムの意味が全く理解できません。教えてください
また、ロジスティック回帰と線形判別分析で実行したいんですが以下のプログラム改良すればできますか?
m_max<-9#最初に来る数字の最大値 k_max<-0#次に来る数字の最大値 dname<-"C:/Users/" #install.packages('randomForest') library('randomForest') for(m in 0:m_max){ for(k in 0:k_max){ #ファイル名の設定と読み出し fit_name<-paste(dname,"Tomcat_cv_Fit_",m,"_",k,".csv",sep="") fit.df<-read.csv(fit_name) test_name<-paste(dname,"Tomcat_cv_Tst_",m,"_",k,".csv",sep="") test.df<-read.csv(test_name) fit.df<-subset(fit.df,fit.df$loc!=0) test.df<-subset(test.df,test.df$loc!=0) fit.df$bug<-fit.df$bug/fit.df$loc #fit.df<-fit.df[,-9] test.df$bug<-test.df$bug/test.df$loc #test.df<-test.df[,-9] #ロジスティック回帰 #result1=lm(bug~wmc+dit+noc+cbo+rfc+lcom+npm+lcom3+loc+dam+moa+ic+cbm,data=fit.df) result1=glm(bug~.,data=fit.df) #↓結果についてステップ関数 step.glm<-step(result1) #結果 summary(result1) #精度 #数値が低いほど信用度は高い #extractAIC(result1) #テストデータの予測 #p1 #index P1 <- predict(step.glm,test.df) #上のグラフ 縦横の名称があってるかは不明 (x,y)でxが横 これでいえばP1、yが縦 indexがテストデータ数 plot(P1)#点グラフ par(new=T)#重ね合わせ plot(P1,type="l")#折れ線 # 線形判別 library(MASS) result2 <- lda(bug ~., data = fit.df, na.action = "na.omit", CV = TRUE) # result2 # ct <- table(fit.df$bug, result2$class) diag(prop.table(ct,1)) sum(diag(prop.table(ct))) if(m==0&&k==0){ result_summary.df<-cbind(cbind(test.df,fit.lm.pred),fit.rf.pred) }else{ result_summary.df<-rbind(result_summary.df,cbind(cbind(test.df,fit.lm.pred),fit.rf.pred)) } } } write.csv(result_summary.df,paste(dname,"result_summary.csv",sep=""))
どこにあったプログラムなのか明記してください (ウェブページならURLを、書籍なら著者名・書名・出版社と掲載ページを)。また、質問の後半は意味の通る日本語になっていませんので、他人が読んでわかるように書き直して下さい。
バグ予測に関する研究で、Tomcatというデータを使いロジスティック回帰と線形判別分析の2つの手法でバグの有無を予測するのですが。tomcatのデータは以下からDLできます。https://terapromise.csc.ncsu.edu/!/#repo/view/head/defect/ck/tomcat/
やりたいことについてはわかりました。そのTomcatデータをプログラムで分析したいのですね。では、提示しておられるプログラムはどこにあったものでしょうか (ウェブページならURLを、書籍なら著者名・書名・出版社と掲載ページを明記してください)。
あなたの回答
tips
プレビュー