k倍交叉驗證是對模型的效能進行評估,可以用來防止過擬合,比如對決策樹節點數目的確定或是回歸模型引數個數地決定等情況。
1.對於一些特殊資料來說,在呼叫glm()方法時候,會出現兩種常見錯誤
warning: glm.fit: algorithm did not converge
warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
warning messages:
1: glm.fit:演算法沒有聚合
2: glm.fit:擬合機率算出來是數值零或一
針對第一種,一般是因為在回歸擬合的時候次數少,control=list(maxit=100)修改次數為100即可;
第二種一般就是資料已經分散好了,可以理解為一種過擬合,由於資料的原因,在回歸係數的優化搜尋過程中,使得分類的種類屬於某一種類(y=1)的線性擬合值趨於大,分類種類為另一 類(y=0)的線性擬合值趨於小。
以鳶尾花資料為例子,
這裡寫**片
這種情況直接就可以劃分了,無需回歸分析
2.建立好回歸模型,呼叫predict()進行評價,根據包裡面的解釋:
預設是線性**因子的尺度; 若是
type= 「response「<==>「響應」是響應變數的規模。
所以predict(log.glm) 返回的是」β0+β1x1+…βmxm」,而predict(log.glm,typee= 「response「)返回的是p值。下圖是我做的認為驗證
3。下來就是通過k倍交叉驗證評價模型好壞了,cv.glm(log.glm,trian,k=10)
可以得到錯誤率;
4.最後可以畫roc曲線,由於cv.glm只有錯誤率沒有p值,所以自己編了乙個程式作了cv,得到圖為:
有乙個疑問,就是做roc曲線的時候,是不是把test_data分別帶入相同模型五個不同的引數中得p值(以5倍交叉驗證為例)??
自己也是蠻笨的,為了這個事情搞了一天半,加油吧,感情上是個loser,學習上盼望有點建樹吧。
Logistics回歸綜述
其實,logistics回歸是從最簡單的線性回歸裡面發展出來的,它是廣義線性回歸的一種。本文將遵循正常人的思維方式,一步一步揭示logistics回歸神秘的面紗。在講廣義線性回歸之前,我們先來回歸一下什麼是線性回歸,定義如下。那麼如何確定引數w和b呢?我們通常用得是最小二乘法,也就是基於均方誤差最小...
R回歸分析
a.建立回歸模型 b.求解回歸模型中的引數 c.對回歸模型進行檢驗。r中,與線性模型有關的函式有 lm summary anova 和predict 我們由例子入手,逐步學習這些函式。例1 財政收入與稅收有密切的依存關係。d4.3給出我們1978年改革開放以來到2008年共31年的稅收 x,百億元 ...
Logistics回歸係數解讀
logistic回歸雖然名字叫 回歸 但卻是一種分類學習方法。使用場景大概有兩個 第一用來 第二尋找因變數的影響因素。線性回歸和logistic回歸都是廣義線性模型的特例。假設有乙個因變數y和一組自變數x1,x2,x3,xn,其中y為連續變數,我們可以擬合乙個線性方程 y 0 1x1 2x2 3x3...