周志華《機器學習》 整合學習

2021-10-25 20:19:40 字數 1034 閱讀 4479

boosting的工作過程是:

boosting演算法的代表演算法adaboost詳解,可參照

bagging演算法的工作過程是:

bagging的代表演算法是隨機森林,隨機森林是利用決策樹作為個體學習器演算法,在決策樹訓練過程中引入和隨機屬性選擇的bagging演算法。

從理論上證明,個體學習器準確性越高,多樣性越大,整合性越好

(1)不合度量

(2)相關係數

(3)q-統計量

(4)k-統計量

(1)資料樣本擾動:

從初始資料集,用取樣的方法產生不同的資料子集,然後訓練不同的個體學習器。

有效的演算法包括決策樹、神經網路等

對樣本擾動不敏感的演算法包括線性學習器、svm、樸素貝葉斯、k緊鄰學習器等

(2)輸入屬性擾動

從原始屬性集中抽取不同的屬性子集,作為輸入訓練,訓練不同的個體學習器。

對包含大量冗餘屬性的資料比較有用,資料屬性少或冗餘少時不適合使用

(3)輸出表示擾動

如翻轉法flipping output、輸出調製法output smearing、將原任務拆解為多個可同時求解的子任務,如ecoc法

(4)演算法引數擾動

(1)平均法

(2)投票法

(3)學習法

學習法是將初級學習器的輸出作為次級學習器的輸入,樣本標籤作為標籤,對次級學習器進行訓練,然後用次級學習器對初級學習期進行結合的方法。

通常是通過k這交叉驗證或者留一法,留出一部分資料,不用以初級學習器的訓練,而是僅用作次級訓練器訓練。

有研究表明,用初級訓練器的輸出類概率作為輸入,用多響應線性回歸作為次級學習演算法較好

機器學習周志華筆記

1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...

周志華 機器學習 筆記

學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...

《周志華機器學習》簡要

分類和回歸 奧卡姆剃刀 若有多個假設與觀察一致,則選擇簡單的那個 評估方法 效能度量 偏差與方差 距離 最小二乘法 與mse均方差含義有些類似。基於mse最小化來進行模型求解的方法稱為最小二乘法 lda 線性判別分析。給定訓練樣例集,設法將樣例投影到一條直線上,同類樣例投影點盡可能接近,不同類盡可能...