機器學習面筆試資料篇

常用的有白化，去均值，歸一化和pca。

可參考這裡。

常用的歸一化方法：線性歸一化和0均值標準化

線性歸一化將資料轉換到[0,1]之間： xn

orm=

x−xm

inxm

ax−x

min' role="presentation">xno

rm=x

−xmi

nxma

x−xm

inxn

orm=

x−xm

inxm

ax−x

min0均值標準化，均值為0，方差為1的資料集: z=

x−μσ

' role="presentation">z=x

−μσz

=x−μ

σ μ' role="presentation">μ

μ為資料的均值，

σ' role="presentation">σ

σ 為資料的標準差

更多可閱讀這裡。

要強調：能不歸一化最好不歸一化，之所以進行資料歸一化是因為各維度的量綱不相同。而且需要看情況進行歸一化。

有些模型在各維度進行了不均勻的伸縮後，最優解與原來不等價（如svm）需要歸一化。

有些模型伸縮有與原來等價，如：lr則不用歸一化，但是實際中往往通過迭代求解模型引數，如果目標函式太扁（想象一下很扁的高斯模型）迭代演算法會發生不收斂的情況，所以最壞進行資料歸一化。

補充：其實本質是由於loss函式不同造成的，svm用了尤拉距離，如果乙個特徵很大就會把其他的維度dominated。而lr可以通過權重調整使得損失函式不變。

[更多]

可以通過上取樣和下取樣來解決，即多的樣本通過取其中一部分，少的樣本重複利用；

進行特殊的加權，如在adaboost中或者svm中過修改loss 函式，修改樣本的權值，讓少樣本的更大權值；

採用對不平衡資料集不敏感的演算法；

改變評價標準：用auc/roc來進行評價；

採用bagging/boosting/ensemble等方法；

考慮資料的先驗分布；

機器學習面筆試資料篇

常用的有白化，去均值，歸一化和pca。可參考這裡。常用的歸一化方法線性歸一化和0均值標準化線性歸一化將資料轉換到 0,1 之間 xn orm x xm inxm ax x min xno rm x xmi nxma x xm in 0均值標準化，均值為0，方差為1的資料集 z x z x 為資料...

機器學習面筆試模型評估篇

p r圖，即以查全率做橫軸，查準率做縱軸的平面示意圖，通過p r曲線，來綜合判斷模型的效能。p r圖的畫法是先對對結果進行排序，排在前面的是學習器認為最可能是正例的樣本，排在最後面的是最不可能的樣本。按順序，依次將每乙個樣本劃分為正例進行就得到了多組查準率和查全率的值。roc空間是乙個以假陽性率...

機器學習面筆試神經網路篇

因為如果不用非線性激勵函式，每一層都是上一層的線性函式，無論神經網路多少層，輸出都是輸入的線性組合，與只有乙個隱藏層效果一樣。相當於多層感知機了。所以引入非線性激勵函式，深層網路就變得有意義了，可以逼近任意函式。1 sigmoid 將輸出實值壓縮到0 1之間。缺點輸入非常大或非常小的時候容易梯度...

機器學習面筆試 資料篇

機器學習面筆試 資料篇

機器學習面筆試 模型評估篇

機器學習面筆試 神經網路篇

相關推薦

機器學習面筆試資料篇

機器學習面筆試資料篇

機器學習面筆試模型評估篇

機器學習面筆試神經網路篇