常用的有白化,去均值,歸一化和pca。
可參考這裡。
常用的歸一化方法:線性歸一化和0均值標準化
線性歸一化將資料轉換到[0,1]之間: xn
orm=
x−xm
inxm
ax−x
min xno
rm=x
−xmi
nxma
x−xm
in
0均值標準化,均值為0,方差為1的資料集: z=
x−μσ
z =x
−μσμ
μ
為資料的均值,σ σ
為資料的標準差
這裡。要強調:能不歸一化最好不歸一化,之所以進行資料歸一化是因為各維度的量綱不相同。而且需要看情況進行歸一化。
有些模型在各維度進行了不均勻的伸縮後,最優解與原來不等價(如svm)需要歸一化。
有些模型伸縮有與原來等價,如:lr則不用歸一化,但是實際中往往通過迭代求解模型引數,如果目標函式太扁(想象一下很扁的高斯模型)迭代演算法會發生不收斂的情況,所以最壞進行資料歸一化。
補充:其實本質是由於loss函式不同造成的,svm用了尤拉距離,如果乙個特徵很大就會把其他的維度dominated。而lr可以通過權重調整使得損失函式不變。
[更多]
可以通過上取樣和下取樣來解決,即多的樣本通過取其中一部分,少的樣本重複利用;
進行特殊的加權,如在adaboost中或者svm中過修改loss 函式,修改樣本的權值,讓少樣本的更大權值;
採用對不平衡資料集不敏感的演算法;
改變評價標準:用auc/roc來進行評價;
採用bagging/boosting/ensemble等方法;
考慮資料的先驗分布;
機器學習面筆試 資料篇
常用的有白化,去均值,歸一化和pca。可參考這裡。常用的歸一化方法 線性歸一化和0均值標準化 線性歸一化將資料轉換到 0,1 之間 xn orm x xm inxm ax x min role presentation xno rm x xmi nxma x xm inxn orm x xm inx...
機器學習面筆試 模型評估篇
p r圖,即以查全率做橫軸,查準率做縱軸的平面示意圖,通過p r曲線,來綜合判斷模型的效能。p r圖的畫法是先對對 結果進行排序,排在前面的是學習器認為最可能是正例的樣本,排在最後面的是最不可能的樣本。按順序,依次將每乙個樣本劃分為正例進行 就得到了多組查準率和查全率的值。roc空間是乙個以假陽性率...
機器學習面筆試 神經網路篇
因為如果不用非線性激勵函式,每一層都是上一層的線性函式,無論神經網路多少層,輸出都是輸入的線性組合,與只有乙個隱藏層效果一樣。相當於多層感知機了。所以引入非線性激勵函式,深層網路就變得有意義了,可以逼近任意函式。1 sigmoid 將輸出實值壓縮到0 1之間。缺點 輸入非常大或非常小的時候 容易梯度...