乙個包含d = 的資料集,需要從中產生訓練集s和測試集t。以下是常用的幾種做法。
留出法留出法將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集s,另乙個作為測試集t。且
d =
但是在選擇劃分時,應該注意劃分的方式,比如在劃分是如果資料集d中有10000個正樣本和10000和負樣本,那麼應該對其進行乙個分層取樣,一般採用若干次隨機劃分,重複評估後選擇平均值作為評估結果。為了盡可能的提供模型的準確性,同時保持模型的保真性,大約將2/3~4/5的樣本用於訓練,剩餘樣本用於測試。
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...
周志華 機器學習 讀書筆記
分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...
《機器學習實戰》讀書筆記
監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...