機器學習重要概念補充

2021-10-04 19:03:04 字數 715 閱讀 7405

多項式回歸對非線性資料進行處理的方法:

研究乙個因變數與乙個或多個自變數間多項式的回歸分析方法,稱為多項式回歸(polynomial regression)。

完全是使用線性回歸的思路,關鍵在於為資料新增新的特徵,而這些新的特徵是原有的特徵的多項式組合,採用這樣的方式就能解決非線性問題。

多項式回歸是公升維,新增了新的特徵之後,使得更好地擬合高維資料。

關於偏差和方差

偏差(bias):偏差衡量了模型的**值與實際值之間的偏離關係。

方差(variance):方差描述的是訓練資料在不同迭代階段的訓練模型中,**值的變化波動情況(或稱之為離散情況)。

偏差衡量了模型的**值與實際值之間的偏離關係,主要的原因可能是對問題本身的假設是不正確的,或者欠擬合。方差描述的是模型**值的變化波動情況(或稱之為離散情況),模型沒有完全學習到問題的本質,通常原因可能是使用的模型太複雜,過擬合。

引數或者線性的演算法一般是高偏差低方差;非引數或者非線性的演算法一般是低偏差高方差。所以我們需要調整引數來去衡量方差和偏差的關係。

模型正則化:l1正則、l2正則

l1正則化就是在損失函式後邊所加正則項為l1範數,加上l1範數容易得到稀疏解(0比較多),一般來說l1正則化較常使用。

l2正則化就是損失後邊所加正則項為l2範數,加上l2正則相比於l1正則來說,得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近於0(但不是等於0,所以相對平滑)的維度比較多,降低模型的複雜度。

機器學習概念補充

在除錯統計模型的時候,使用了過多的引數,模型對於訓練資料擬合上程度過當。在訓練資料上表現很好,但在測試集上表現不好。解決方法 使用交叉驗證,增加樣本數,改變超引數 設定範圍進行迴圈 模型在訓練和 時表現都不好的情況 欠擬合很容易被發現。驗證曲線 sklearn.model selection.val...

機器學習初級重要概念

機器學習初級重要概念 資料的歸一化計算 z score 歸一化 min max歸一化 動態學習率與動量的優化演算法 adadelta 動量adam rmsprop 神經網路的fp和bp的計算與推導 啟用函式是什麼?如何計算?導數是什麼?輸入數值如何進行計算輸出值 如何求得任意的引數的梯度 下一輪的引...

重要機器學習演算法

從svm到隨機森林,再到梯度提公升機,他們都是機器學習領域應用廣泛的代表。svm的理解可以參考該部落格 svm,支援向量機就是一種將低維資料通過核函式對映到高維空間,對資料進行某種變換,使得資料在高維空間可以輕易的實現分離。隨機森林 發現隨機森林這個演算法在分類問題上效果十分的好,大多數情況下效果遠...