機器學習面筆試 資料篇

2022-08-26 01:30:15 字數 1042 閱讀 6837

常用的有白化,去均值,歸一化和pca。

可參考這裡。

常用的歸一化方法:線性歸一化和0均值標準化

線性歸一化將資料轉換到[0,1]之間: xn

orm=

x−xm

inxm

ax−x

min' role="presentation">xno

rm=x

−xmi

nxma

x−xm

inxn

orm=

x−xm

inxm

ax−x

min0均值標準化,均值為0,方差為1的資料集: z=

x−μσ

' role="presentation">z=x

−μσz

=x−μ

σ μ' role="presentation">μ

μ為資料的均值,

σ' role="presentation">σ

σ 為資料的標準差

更多可閱讀這裡。

要強調:能不歸一化最好不歸一化,之所以進行資料歸一化是因為各維度的量綱不相同。而且需要看情況進行歸一化。

有些模型在各維度進行了不均勻的伸縮後,最優解與原來不等價(如svm)需要歸一化。

有些模型伸縮有與原來等價,如:lr則不用歸一化,但是實際中往往通過迭代求解模型引數,如果目標函式太扁(想象一下很扁的高斯模型)迭代演算法會發生不收斂的情況,所以最壞進行資料歸一化。

補充:其實本質是由於loss函式不同造成的,svm用了尤拉距離,如果乙個特徵很大就會把其他的維度dominated。而lr可以通過權重調整使得損失函式不變。

[更多]

可以通過上取樣和下取樣來解決,即多的樣本通過取其中一部分,少的樣本重複利用;

進行特殊的加權,如在adaboost中或者svm中過修改loss 函式,修改樣本的權值,讓少樣本的更大權值;

採用對不平衡資料集不敏感的演算法;

改變評價標準:用auc/roc來進行評價;

採用bagging/boosting/ensemble等方法;

考慮資料的先驗分布;

機器學習面筆試 資料篇

常用的有白化,去均值,歸一化和pca。可參考這裡。常用的歸一化方法 線性歸一化和0均值標準化 線性歸一化將資料轉換到 0,1 之間 xn orm x xm inxm ax x min xno rm x xmi nxma x xm in 0均值標準化,均值為0,方差為1的資料集 z x z x 為資料...

機器學習面筆試 模型評估篇

p r圖,即以查全率做橫軸,查準率做縱軸的平面示意圖,通過p r曲線,來綜合判斷模型的效能。p r圖的畫法是先對對 結果進行排序,排在前面的是學習器認為最可能是正例的樣本,排在最後面的是最不可能的樣本。按順序,依次將每乙個樣本劃分為正例進行 就得到了多組查準率和查全率的值。roc空間是乙個以假陽性率...

機器學習面筆試 神經網路篇

因為如果不用非線性激勵函式,每一層都是上一層的線性函式,無論神經網路多少層,輸出都是輸入的線性組合,與只有乙個隱藏層效果一樣。相當於多層感知機了。所以引入非線性激勵函式,深層網路就變得有意義了,可以逼近任意函式。1 sigmoid 將輸出實值壓縮到0 1之間。缺點 輸入非常大或非常小的時候 容易梯度...