bagging:通過平均來降低變化量。
decision tree:對不同的資料敏感,變化量大。
aggregation of
aggregation
:用bagging的方式把一堆decision tree結合起來。
1、並行化、高效
2、繼承cart的優點
3、消除完全生長cart的overfit缺點
得到有差異性的g:
隨機抽取dataset(bagging)
隨機抽取feature(低維投影,特徵子空間)
rf = bagging + 隨機特徵cart
特徵 = 投影矩陣*原始特徵
投影到原始方向:特徵隨機抽取
投影到任意方向:特徵結合後隨機抽取,more powerful。
原始的rf考慮在
cart每一次分支時
將特徵結合起來後低維投影。
rf = bagging + 隨機結合特徵cart
課後習題:
perceptron,特徵加權後切分
decision stump,單個特徵切分,相當於水平或垂直切分
random-combination,特徵結合後
投影,不只是垂直、水平,還可能斜的切分
out-of-bag(oob) example:沒有被bagging過程選中的資料
有多少oob example:n*(1/e)
oob資料可以用來交叉驗證g
bagging的過程可以實現自我交叉驗證:oob error
oob error做模型選擇
不需要切分訓練集和驗證集,不需要做兩次訓練
有時候想去除:
冗餘的特徵、
無關的特徵
特徵選擇(事物的雙面性,好處壞處相對應,關鍵是特徵選擇的好壞)
好處:高效、更一般化、更具有解釋性
壞處:選取特徵的計算量大、過擬合、錯誤的解釋
decision tree自帶特徵選擇。
根據重要性選取特徵:取top importance
線性模型的importance:w向量(這時x應該要歸一化才能衡量吧!)
rf的特徵選擇:置換檢驗
random test:如果是重要的特徵,那麼增加random values,表現會下降
random values:
1、插入均勻分布、高斯分布等資料。缺陷:改變原有特徵的資料分布,表現差距=噪音影響+分布影響(不要)
2、boostrap(在原有資料上抽樣),
置換檢驗(
在原有資料上
重新隨機排列)。分布接近一致,資料亂掉了。 特徵
i的重要性 = 原始資料的表現 - 特徵
i資料置換後的表現
原始rf特徵重要性衡量
一種方法:
(1)原始資料,訓練g,在g上用oob error衡量表現performance(d)
(2)原始資料上置換
特徵i的
資料,重新訓練g(p)
,在g(p)
上用oob error衡量表現?performance(d
(p))
(3)importance(i) =
performance(d) -
performance(d
(p))
更簡單的方法:
(1)原始資料,訓練g,
在g上用oob error衡量表現
eoob(g)
(2)oob example上置換
特徵i的
oob資料,
在g上用
oob error衡量表現e(p)
oob(g)
(3)importance(i) = e
oob(g)
- e(p)
oob(g)
隨機特徵結合
cart
樹(左圖)
bagging的一棵
隨機特徵結合
cart
樹(中圖,bagging選取中的點比較大)
t棵樹的rf(bagging +
隨機特徵結合
cart
樹)(右圖)
簡單的資料集
樹變多,邊界
變得更加平滑、
更大。
複雜的資料集
很容易就得到了還不錯的非線性模型
有噪音的資料集
樹多了後通過投票把噪音消除,得到穩定的結果
樹越多,表現越好
kddcup例子:rf的隨機性使得表現不穩定,通過增加樹的棵樹來使得它更穩定
rf的缺點:rf是乙個隨機性的模型,如果隨機的過程還沒有到達相對穩定的狀態,或者是對結果的一點點變化很敏感,那麼會受隨機過程的影響。
實物上使用rf,要看g是否達到穩定,從而決定是否需要更多的樹。
Stanford機器學習 第十講 資料降維
第十講.降維 dimensionality reduction 一 為什麼要降維?二 主成分分析principal component analysis pca 三 pca 演算法流程 四 從壓縮資料中恢復原資料 五 怎樣決定降維個數 主成分個數 六 應用pca進行降維的建議 本章主要講述應用pca...
機器學習十講01
2021.1.26 概論人工智慧 機器學習 深度學習 機器學習問題 資料 聚類 分類 異常值分析 機器學習的基本方法 監督學習 1 資料集中的樣本帶有標籤,有明確目標。2 回歸和分類。無監督學習 1 資料集中的樣本沒有標籤,沒有明確目標。2 聚類 降維 排序 密度估計 關聯規則挖掘 強化學習 介於前...
機器學習十講 第一講
我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...