機器學習中,有時,我們需要將多個模型組合起來使用,這樣很多時候可以達到更好的擬合效果,就像好的咖啡,融合起來喝才更美味,有些時候,我們僅僅通過乙個模型,泛化能力遠遠達不到我們的要求,這時,可以使用多個模型,將它們的輸出進行線性組合,得到最後的結果。
一般有兩種簡單的方式組合各種模型的輸出:通過投票和通過平均,投票就像做分類任務一樣,當有多個模型輸出時,將得到票數最多的那一類作為樣本最終的分類結果。而通過平均,則常使用在概率模型或回歸模型,將多個模型輸出的概率或回歸結果取平均作為我們最後的結果。
對於投票和平均有乙個需要注意也十分重要的點:那就是,如果每個模型的誤差是不相關的,也就是引起每個模型誤差的原因都是不同的,且每個模型正確的概率大於二分之一,那麼通過這種方法,漸漸的就可以將各個模型的誤差因素進行削弱,隨著模型的增多,組合的模型效果會越來越好,反之,如果各個模型引發誤差的因素是比較相似的,那麼通過組合仍然不能有效的提高模型的效果。
所以對於,平局和組合而言,它們將每個模型一視同仁,並沒有發揮出每個模型的特性,或者在**時的優點。
對於堆疊泛化,它的思路就是針對不同的模型進行不同的加權輸出,這樣可以發揮各個模型的特性。
舉個例子,中國好聲音正在比賽,這時,評分方有三個,專家,觀眾,被評分選手以外其他的參賽選手。顯然對於這個問題我們可以知道,絕不能讓三方評委之間的評分取平均。
堆疊泛化事實上就是遵循的上面乙個道理。
機器學習 模型泛化(LASSO 回歸)
一 基礎理解 二 lasso 回歸 1 對於嶺回歸 2 對於 lasso 回歸1 模擬資料集 2 使用多項式回歸擬合資料 3 使用 lasso regression 改進演算法模型 4 分析 正則化的程度 擬合曲線的上下抖動幅度 1 使用 ridge 改進的多項式回歸演算法,隨著 的改變,擬合曲線始...
Python3入門機器學習 模型泛化
模型正則化 在多項式回歸中如果degree過大,會造成過擬合的情況,導致模型 方差極大,因此,我們可以使用模型正則化的方式來減小過擬合導致的 方差極大的問題 即在我們訓練模型時,不僅僅需要將 的y和訓練集的y的均方誤差達到最小,還要使引數向量最小。即上圖公式。使用嶺回歸達到最小方差 from skl...
機器學習「傻瓜式」理解(11)模型泛化
上一節我們了解到,我們在機器學習領域要解決的主要問題便是高方差的問題,主要的解決的辦法便是模型泛化,其功能的概括來說便是通過限制超引數的大小,來解決過擬合或者模型含有巨大的方差誤差這樣的問題。嶺回歸也是模型正則化一種方式,通過加入模型正則化的方式來更好的解決模型過擬合的線性的產生。根數數學的常識,我...