permutation test的原理(隨機排序的方式來測試某個特徵的重要性):原本的表現-該特徵資料的隨機打亂後的表現。
在面對非線性的問題的時候會首先用random forest來進行初步的特徵選擇。
上圖一:一棵樹劃分情況,圖二(bagging的小樹的結果):bootstrap隨機產生的一顆樹的情況,此時有些點沒有被抽樣,圖三(整個森林的結果):bootstrap隨機產生多顆數的組合情況,邊界更加平滑和具有最大邊界性(邊界處在圈圈與叉叉的中間位置)。
再有雜訊的資料集中,較多的樹的投票結果會盡量將雜訊影響降到最小。
rf是乙個隨機演算的過程,若隨機過程沒有達到乙個相對穩定的狀態,或者對一點點變化很敏感,因而產生一些高高低低的變化,受到初始值的影響。通過考察增加一棵樹減少一棵樹的影響大不大來決定你的樹數目夠不夠。
總結:rf是bagging和decision tree的結合
機器學習技法筆記(1)
一 承前啟後 kernel method 這一段話還是很重要的 1 如何處理feature很多很複雜的情況?kernel 2 如何將多個feature聯絡起來使用?boost和blend 3 如何學習隱藏的feature?deeplearning 首先還是引出了svm,為什麼需要使用svm呢,簡單的...
機器學習技法 學習筆記04 Soft SVM
背景 之前所討論的svm都是非常嚴格的hard版本,必須要求每個點都被正確的區分開。但是,實際情況時很少出現這種情況的,因為雜訊資料時無法避免的。所以,需要在hard svm上新增容錯機制,使得可以容忍少量雜訊資料。軟 化問題 軟化svm的思路有點類似正規化,在目標函式新增錯誤累加項,然後加乙個係數...
《機器學習技法》 模型聚合
分別有 1 選擇最好的模型 2 每個模型均勻的投票 3 每個模型按不同的權重投票 4 每個模型的權重跟輸入有關。也就是均勻投票的聚合方式。對於二分類來說,就是 對於多分類來說,就是 對於回歸來說,就是 簡單推導一下為什麼這種聚合方式可以做的好 也就是blending之後的模型g的eout一定是比所有...