二者都是整合學習演算法,都是將多個弱學習器組合成強學習器的方法。
bagging:從原始資料集中每一輪有放回地抽取訓練集,訓練得到k個弱學習器,將這k個弱學習器以投票的方式得到最終的分類結果。
存在。我們可以使用無監督學習的某些指標或人為地去評估模型效能,以此來判斷是否過擬合。
將原始資料集劃分為k個子集,將其中乙個子集作為驗證集,其餘k-1個子集作為訓練集,如此訓練和驗證一輪稱為一次交叉驗證。交叉驗證重複k次,每個子集都做一次驗證集,得到k個模型,加權平均k個模型的結果作為評估整體模型的依據。
k越大,不一定效果越好,而且越大的k會加大訓練時間;在選擇k時,需要考慮最小化資料集之間的方差,比如對於2分類任務,採用2折交叉驗證,即將原始資料集對半分,若此時訓練集中都是a類別,驗證集中都是b類別,則交叉驗證效果會非常差。
準確率 = tp / (tp + fp),召回率 = tp / (tp + fn),其中tp表示將正例正確分類為正例的數量,fp表示將負例錯誤分類為正例的數量,fn表示將正例錯誤分類為負例的數量。
準確率可以理解為在所有分類為正例的樣品中,分類正確的樣本所佔比例;召回率可以理解為在所有原始資料集中的正例樣品中,正確挑出的正例樣本的比例。
因此若增大閾值t,更多不確定(分類概率較小)的樣本將會被分為負例,剩餘確定(分類概率較大)的樣本所佔比例將會增大(或不變),即正確率會增大(或不變);若增大閾值t,則可能將部分不確定(分類概率較小)的正例樣品誤分類為負例,即召回率會減小(或不變)。
a.增加網路層數,總能減小訓練集錯誤率
b.減小網路層數,總能減小測試集錯誤率
c.增加網路層數,可能增加測試集錯誤率
c。增加神經網路層數,確實可能提高模型的泛化效能,但不能絕對地說更深的網路能帶來更小的錯誤率,還是要根據實際應用來判斷,比如會導致過擬合等問題,因此只能選c。
l1範數:向量中各個元素絕對值之和
l2範數:向量中各個元素平方和的開二次方根
lp範數:向量中各個元素絕對值的p次方和的開p次方根
輸入資料本身存在nan值,或者梯度**了(可以降低學習率、或者設定梯度的閾值)
減小影象尺寸即資料降維,緩解過擬合,保持一定程度的旋轉和平移不變性。
sigmoi,relu,tanh。非線性化
機器學習常見面試題
判別方法 由資料直接學習決策函式 y f x 或者由條件分布概率 p y x 作為 模型,即判別模型。生成方法 由資料學習聯合概率密度分布函式 p x,y 然後求出條件概率分布p y x 作為 的模型,即生成模型。由生成模型可以得到判別模型,但由判別模型得不到生成模型。常見的判別模型有 k近鄰 sv...
常見面試題 機器學習篇
傳統的機器學習演算法 svm,lr,softmax,決策樹,隨機森林,gbdt,xgboost,adaboost,bp神經網路 樸素貝葉斯這些都必須自己手推一次或者多次 深度學習方面 cnn rnn lstm 常用啟用函式 tanh relu等 adam優化函式 梯度消失原理或者結構應該能手畫出來。...
機器學習 邏輯回歸常見面試題整理
1.介紹 邏輯回歸假設資料服從伯努利分布,通過極大化似然函式的方法,運用梯隊下降來求解引數,來達到將資料二分類的目的。2.邏輯回歸的損失函式和梯度下降引數迭代方法 3.邏輯回歸為什麼使用對數損失而不用平方損失 損失函式一般有四種,平方損失函式,對數損失函式,hingeloss0 1損失函式,絕對值損...