機器學習知識總結

2021-08-07 11:37:40 字數 1734 閱讀 7284

偏差表示輸出的期望與真實標記的差別,(不考慮雜訊的話真實標記就是觀測到的資料,考慮雜訊的話觀測的值有可能是雜訊)

方差表示**值的變化範圍,也就是**值離其期望的距離,等於**值減去**值的期望的平方的期望e(f-ef)的平方。

模型的泛化誤差=方差+偏差+雜訊(如果不考慮雜訊就是方差-偏差分解)

泛化的效能取決於學習演算法能力,資料的充分性以及學習任務本身的難度(雜訊)。給定學習任務,為了提高泛化能力,則需減少偏差,即能夠充分擬合資料,並使方差較小,即使資料擾動產生的影響較小。一般來說,方差和偏差是有衝突的,給定學習任務,假設我們能控制學習演算法的訓練程度,當訓練不足時,學習器對資料的擬合不夠時,資料的擾動不足以使學習器發生顯著變化,此時偏差主導泛化誤差。當訓練程度加深時,學習器對資料的擬合能力變強,訓練資料發生輕微的擾動都會讓學習器發生顯著變化,此時方差主導泛化誤差,如果訓練集自身的特性被學習器學到了,會發生過擬合。

一般來說:偏差大,方差小時發生欠擬合;偏差小方差大時發生過擬合。

過擬合:說明把模型訓練的太好了,以至於把訓練資料自身的一些特徵當作資料的一般特徵訓練模型

欠擬合:不能很好的擬合資料

欠擬合解決方法:

1.新增其他特徵,

2.減少正則化引數,正則化引數一般是為了防止過擬合的,既然發生了欠擬合,則應減少正則化引數

過擬合解決方法:

1.重新清洗資料,導致過擬合的乙個原因可能是資料不純導致的(訓練資料自身的一些特性被當做一般特性來訓練模型)

2.增大訓練資料量

3採用正則化方法:新增正則化引數l0,l1,l2範數,l0範數指非零引數的個數,l1範數指引數的絕對值之和,兩者都可以稀疏向量引數,但是l0範數難以優化是np難問題,l1範數比l0範數容易求解。l2範數指引數平方和再開根號;

最小化損失函式與l範數過程中,l範數起到是引數盡量小的作用,根據奧卡姆剃刀準則,更小的引數意味著模型的複雜度更低,對訓練資料的擬合也更好。

4.dropout方法,用在神經網路中,讓神經元以一定的概率不工作

如何判斷是過擬合還是欠擬合

最簡單的方法,在多項式擬合中,隨著多項式最高次冪的增加,訓練資料集上的誤差會逐漸減少,測試資料集的誤差會先減小後增大,當測試資料集上的誤差比較大時,若訓練資料集上的誤差也比較大,則可能存在欠擬合;若訓練資料集上的誤差比較小,則可能存在過擬合,

另外一味地追求經驗風險最小化會導致過擬合問題,結構風險最小化就是為了防止過擬合,結構風險最小化等價於正則化。結構風險在經驗風險上加上模型複雜度項的正則化項或稱罰項。

監督學習方法又可分為生成方法和判別方法,所學到的模型分別為生成模型和判別模型。

生成學習方法由資料學習聯合概率分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型p(y|x)=p(x,y)/p(x)

之所以叫生成方法,是因為模型表示了給定輸入x產生輸出y的生成關係。典型的生成模型有:樸素貝葉斯法和隱馬爾科夫模型。

判別方法由資料直接學習決策函式f(x)或者條件概率分布f(y|x)作為**的模型,即為判別模型,判別方法關心的是對給定的輸入x,應該**什麼樣的輸出y。典型的判別模型包括:k近鄰法,感知機,決策樹,最大熵模型,支援向量機,提公升方法等。

生成方法特點:可以還原出聯合概率分布p(x,y),而判別方法不能。生成學習方法收斂更快,即當樣本容量增加時,學到的模型可以更快速的收斂到真實模型;存在隱變數時,仍可以用生成方法,此時判別方法就不能用。

判別方法特點:判別方法直接學習的是條件概率p(y|x)或者決策函式p(y),直接面對**往往學習的準確率更高,同時可以簡化學習問題。

機器學習知識點總結

錯的。我們可以評估無監督學習方法通過無監督學習的指標,如 我們可以評估聚類模型通過調整蘭德係數 adjusted rand score 把nan直接作為乙個特徵,假設用0表示 用均值填充 用隨機森林等演算法 填充 sgd 隨機梯度下降 sgd momentum 基於動量的sgd 在sgd基礎上做過優...

機器學習 深度學習知識點總結

近期準備秋招,想把之前學過的一些知識總結一下,盡量言簡意賅,主要圍繞機器學習和深度學習,部落格也擱置了一段時間了,以後會常常更新,記錄學習,寫部落格不僅能總結知識,還能在寫的過程中養成思考並查缺的習慣,其實有很多東西想寫的,包括ml dl cv,近期做的人臉識別,還有一些刷題心得等,近期開始慢慢寫吧...

機器學習 特徵工程知識點總結

人工智慧 50年代 機械自動化生產 機器學習 80年代 郵件分類 深度學習 最近十年 影象識別 機器學習定義 資料 自動分析獲得規律 對未知資料進行 為什麼需要機器學習 提高生產效率 機器學習應用場景 用在挖掘 領域 用在影象領域 用在自然語言處理領域 語音 特徵工程 意義 會直接影響機器學習的效果...