誤差平方均值,越小越好
從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?
右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。
我們用什麼樣的手段,來幫助我們發現過擬合?
擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差(模型在新樣本上的誤差)
奧卡姆剃刀原則 如非必要,勿增實體
mdl: minimum description length,最小描述長度原則
什麼是決策樹
資料結構(多叉樹)以二叉樹為主
每個內部節點 都帶乙個標籤,代表乙個屬性,表示在這個節點上
每條邊帶乙個屬性 上面的屬性帶某個值可以進入哪個子樹
葉子節點 (分類結果的標籤會在其上)資料到這裡就不再分類
inference(推斷) 將新到的資料(由一組屬性構成,但未知其標籤)從根節點開始 對應的屬性值 決定在決策樹往哪個子樹走,到達葉子節點,以葉子節點標籤作為這個record的標籤,就做了一次推斷
屬性選擇:雜訊點選擇、如何減枝等等
維度災難 維度很高資料很稀疏 置信度
資料庫 索引問題b樹 一維空間對資料分割
二維空間矩形 矩形樹
資料探勘導論
20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...
資料探勘導論 (二)
序數 能確定物件的序,即大小關係。例 礦石程度 好,較好,最好 區間 可以進行差值比較。例 日曆日期 比例 除了能進行差值比較還能進行比率比較 例 長度 測量誤差 記錄的值與實際值不同 誤差 測量值 實際值 資料收集錯誤 遺漏資料或者不當地包含了其他資料 雜訊 測量誤差的隨機部分,使值被扭曲或者加入...
資料探勘導論 (三)
頻率 分類屬性的眾數 具有最高頻率的值 第1步 以遞增順序排列原始資料 即從小到大排列 第2步 計算指數i np 第3步 l 若 i 不是整數,將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。2 若i是整數,則第p百分位數是第i項與第 i l 項資料的平均值。按照上述的計算公式i n p ...