目錄
什麼是機器學習?
如何尋找這個函式?
機器學習三板斧
學習路線
奧卡姆剃刀(occam's razor)原理
bias偏差、variance方差
監督學習
l1範數和l2範數的區別和作用?
為什麼l1範數會使權值稀疏?
為什麼要稀疏?引數稀疏有什麼好處呢?
為什麼l2範數可以防止過擬合?
什麼是模型過擬合,列舉模型過擬合的原因及解決辦法?
對特徵進行挑選的方法有哪些?
機器學習中為什麼要經常對資料做歸一化處理?
機器學習=尋找一種函式
①定乙個函式集合
②判斷函式的好壞
③選擇最好的函式
①設計模型model
②判斷模型的好壞
③選擇最好的函式,優化模型
3.1修改模型,增加資料維度
3.2增加正則因子,使函式更加平滑,讓引數w取值更小。(x變化較小時,整個函式結果不會變化太大,結果更準)
監督學習:有資料標註情況下學習(回歸、分類)
半監督學習:訓練資料中帶標記的資料不夠多
在所有可能選擇的模型中,我們應該選擇能夠很好地解釋已知資料並且十分簡單的模型。
偏差:指與目標結果的偏移量,與目標距離遠的是大偏差,與目標距離近的偏差小。
方差:描述的是穩定性,是否集中在目標區域,相對分散的是高方差,相對集中的是低方差。
監督機器學習問題無非就是「minimizeyour error while regularizing your parameters」,也就是在規則化引數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練資料,而規則化引數是防止我們的模型過分擬合我們的訓練資料。
訓練誤差小並不是我們的最終目標,我們的目標是希望模型的測試誤差小,也就是能準確的**新的樣本。
一般來說,監督學習可以看做最小化下面的目標函式:
第一項l(yi,f(xi;w)) 衡量模型(分類或回歸)對第i個樣本的**值f(xi;w)和真實標籤yi之間的誤差,要求這一項最小,模型盡量擬合訓練資料。不僅要保證訓練誤差最小,更希望模型測試誤差小,所以需加上對引數w的規則化函式ω(w)去約束模型盡量簡單。
對於第一項loss函式,如果是square loss,就是最小二乘;如果是hinge loss,那就是著名的svm了;如果是exp-loss,那就是boosting了;如果是log-loss,那就是logistic regression了;還有等等。不同的loss函式,具有不同的擬合特性,這個也得就具體問題具體分析的。
規則化函式ω(w)也有很多種選擇,一般是模型複雜度的單調遞增函式,模型越複雜,規則化值就越大。比如,規則化項可以是模型引數向量的範數。然而,不同的選擇對引數w的約束不同,取得的效果也不同,但在**中常見的都聚集在:零範數、一範數、二範數、跡範數、frobenius範數和核範數等等。這麼多範數,到底它們表達啥意思?具有啥能力?什麼時候才能用?什麼時候需要用呢?
範數:指的是向量的長度
l1範數是指向量中各個向量元素的絕對值之和。
l2範數(嶺回歸ridge regression或權值衰減weight decay)是指各個各個向量元素的平方和再開方。
l1正規化相當於l0正規化,使特徵更多成為0,即特徵稀疏化(l0範數很難優化求解,所以用的l1正規化),方便特徵提取。
l2範數可以防止過擬合,提公升模型的泛化能力。
任何的規則化運算元,如果他在wi=0的地方不可微,並且可以分解為乙個「求和」的形式,那麼這個規則化運算元就可以實現稀疏。
特徵選擇(feature selection)
稀疏規則化運算元的引入是為了完成特徵自動選擇的光榮使命,它會學習地去掉這些沒有資訊的特徵,也就是把這些特徵對應的權重置為0。
可解釋性(interpretability)
模型更容易解釋。例如患某種病的概率是y,然後收集到的資料x是1000維的,也就是需要尋找這1000種因素到底是怎麼影響患上這種病的概率的。假設這是個回歸模型:y=w1*x1+w2*x2+…+w1000*x1000+b(當然了,為了讓y限定在[0,1]的範圍,一般還得加個logistic函式)。通過學習,如果最後學習到的w*就只有很少的非零元素,例如只有5個非零的wi,那麼我們就有理由相信,這些對應的特徵在患病分析上面提供的資訊是巨大的,決策性的。也就是說,患不患這種病只和這5個因素有關,那醫生就好分析多了。
讓l2範數的規則項||w||2最小,可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0。而越小的引數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象。
據雜訊導致的過擬合:雜訊具有一定的隨機性與欺騙性,如果把雜訊作為有效資訊的話,將會導致過擬合。
缺乏代表性樣本導致的過擬合:訓練資料集不能很好的反應整體分布可能會導致過擬合;訓練資料集較小,但模型過度細化會導致過擬合。
從定量角度來講,過擬合常常表現為模型的方差過大,而欠擬合則表現為模型的偏差過大
通常來說,從兩個方面考慮來選擇特徵:
特徵是否發散:如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。
根據特徵選擇的形式:
embedded:整合法,先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。
歸一化後加快了梯度下降求最優解的速度;
歸一化有可能提高精度
常見的有這兩種:
最值歸一化。比如把最大值歸一化成1,最小值歸一化成-1;或把最大值歸一化成1,最小值歸一化成0。適用於本來就分布在有限範圍內的資料。
均值方差歸一化,一般是把均值歸一化成0,方差歸一化成1。適用於分布沒有明顯邊界的情況,受outlier影響也較小。
參考:
機器學習知識點
1.knn 不適合用來對特徵分布進行分析。2.強化學習中的mdp模型 環境狀態的集合 動作的集合 在狀態之間轉換的規則 規定轉換後 即時獎勵 的規則 描述主體能夠觀察到什麼的規則。3.otsu推到 4.繪製曲線 plt.plot hist.history loss plt.plot hist.his...
機器學習知識點
2.感知機 3 k近鄰法 4.樸素貝葉斯 5.決策樹 6.邏輯回歸與最大熵模型 7.支援向量機 8.整合學習 9.em演算法 10.隱馬爾科夫模型與條件隨機場 11.聚類方法 1.1 監督學習關於資料的基本假設是什麼?1.2 模型的假設空間是什麼?1.3 統計學習三要素 1.4 損失函式的定義,有哪...
機器學習相關知識點
1 tp 將正類 為正類數 fn 將正類 為負類數 fp 將負類 為正類數 tn 將負類 為負類數 精確率 precision p tp tp fp 反映了被分類器判定的正例中真正的正例樣本的比重。準確率 accuracy a tp tn p n tp tn tp fn fp tn 反映了分類器統對...