1、模型的三要素:
a) 表示(2、泛化:假設空間
):目前很多書籍對模型的分類都是基於假設空間的
b) 評價(
損失函式
):是乙個評價標準
c) 優化(
優化演算法
):乙個搜尋演算法,能夠在假設空間中找到評價函式得分最高的假設
訓練集要和測試集分開3、模型選擇:
根據資料之間的關係和模型的表示(4、過擬合:這裡指的是假設
)來選擇模型;實際在進行模型選擇的時候都是通過評測來實現的。
a) 表現:訓練誤差很小,測試誤差很大5、高維空間b) 解決的方案:對評測函式增加乙個正則項;交叉驗證選擇模型引數
c) 過擬合,方差(variance)
;欠擬合,偏執
(bias)
。過擬合的表現是高方差,欠擬合的表現就是高偏執
a) 維度越高越難泛化,因為維度越高(6、特徵工程特徵多)
輸入空間越大
b) 可以通過降維來提高效果
a) 自動化的特徵選擇:選收集全量的特徵,然後計算每個特徵與分類的資訊增益來選擇特徵7、更多的資料勝過更聰明的演算法b) 特徵工程是和領域相關的,也是最花時間的部分
a) 包括更多的樣例和更多的特徵8、模型整合:b) 非常不同的演算法會產生類似的邊界
a) 通過重取樣隨機生成若干個不同的訓練集,在每個集合上生成乙個分類器,然後用投票的方式講結果合併。此方法比較有效,原因是在輕度增加偏置的同時極大的降低了方差(類似於
boosting
的思想)
。
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...
周志華 機器學習 讀書筆記
分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...
《機器學習實戰》讀書筆記
監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...