上一輪樣本分佈—>基分類器進行學習—>誤差率—>分類器權重—>更新樣本權重
優點:
1.可使用不同分類器(lr,dt…)作為基分類器
2.精度高
缺點:
1.對異常值敏感
2.基分類器數目(迭代次數)不好設定
3.對樣本不平衡敏感
1. 樣本、分類器權重如何確定的?
根據上一輪的誤差率e求得本輪分類器權重(與e成反比),再由分類器權重求得樣本權重。(面試可能需要讓進行公式推導)
2. 每次迭代的基分類器有何不同,如何去學習的?
關注上一輪被分類錯誤的樣本,改變樣本分佈,然後基於lr,dt等模型進行學習。
3. 輸出結果?
加權多數表決(權重*基分類器i結果),加大分類誤差率小的弱分類器權重,減小分類誤差率大的弱分類器權重。
4. 損失函式是什麼?
指數損失
5. 為什麼用指數損失函式?
其連續可微,可替代0-1損失函式作為優化目標
6. 講一講前向分步思想?
利用前一輪的學習結果更新後一輪訓練集權重,再進行學習
7. 權重提公升怎麼體現在分類器上?
體現在每輪的誤差率,分類器的權重與該誤差率成反比
ps:機器學習的權重分為三部分:特徵權重,樣本權重,分類器權重
特徵權重:lr,svm
樣本權重:adaboost,訓練樣本類別不均衡,
分類器權重:adaboost
8. adaboost是如何改變樣本權重?
提高被分錯樣本權重,減小分類正確樣本權重,根據當前基分類器的權重,將分錯樣本的權重進行指數級別地增大,分對樣本的權重減小。
機器學習面試筆記整理6 隨機森林
隨機取樣 隨機特徵 多棵決策樹 多數投票 分類 取平均值 回歸 優點 並行 隨機性的引入,增加了多樣性,泛化能力非常強,抗雜訊能力強,對缺失值不敏感 可省略交叉驗證,因隨機取樣 並繼承決策樹有的優點,包括 1 可得到特徵重要性排序,因此可做 特徵選擇 2 可處理高維特徵,且不用特徵選擇 3 能處理離...
HashMap面試筆記整理
1.hashmap在jdk1.8以前和以後的區別 1 jdk1.8以前,hashmap的底層實現是陣列 鍊錶,它的缺點就是即使雜湊函式用的再好,也很難達到百分百均勻分布,而且當很多元素放在乙個桶中時,鍊錶會變得很長,此時遍歷的時間複雜度為o n jdk1.8以前,hashmap採用的是頭插法,如果插...
機器學習面試筆記整理4 支援向量機
基於合頁損失找到一條最佳分離邊界,能把最難分的點 支援向量 分得間隔最大。優點 1.泛化能力高 2.利用核技巧對非線性樣本分類 3.svm 的最終決策函式只由少數的支援向量所確定,計算的複雜性取決於支援向量的數目,而不是樣本空間的維數,可解決高維問題,這在某種意義上避免了 維數災難 4少數支援向量決...