資料探勘之基礎概念二

2021-07-05 15:24:47 字數 638 閱讀 3829

模型的過擬合

分類模型的誤差大致分為兩張:訓練誤差(再代入誤差或表現誤差),泛化誤差

模型擬合不足:決策樹很小,訓練和檢驗誤差都很大

模型過分擬合:樹的模型變得太大,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,這種現象叫做過分擬合

奧卡姆剃刀:給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的模型更可取

悲觀誤差評估:第一種方法明確使用訓練誤差與模型複雜度罰項的和計算泛華誤差。結果泛華誤差可以看做模型的悲觀誤差估計。設n是結點t分類的訓練記錄數,e是被誤分類的記錄數。決策樹t 的悲觀誤差估計e 可以用下式計算

保持方法:

在保持(holdout)方法中,將被標記的原始資料劃分成兩個不想交的集合,分別成為訓練集和檢驗集。在訓練資料集上歸納分類模型,在檢驗集上評估模型的效能。

隨機二次抽樣:

多次重複保持方法來改進對分類器效能的估計,稱作隨機二次抽樣

交叉驗證:

假設把資料分為相同大小的兩個子集,首先,我們選擇乙個自己做訓練集,而另乙個做檢驗集,然後交換兩個集合的角色,原先做訓練集的現在做檢驗集,反之亦然,這種方法叫做二折交叉驗證

k折交叉驗證:把資料分為大小相同的k份,在每次執行,選擇其中乙份作檢驗集,而其餘的全做為訓練集,該過程重複k次,使得每份資料都用於檢驗恰好一次。

資料探勘之基礎概念

任務 根據其他屬性的值,特定屬性的值。通常資料探勘的任務 描述任務 匯出概括資料中潛聯絡的模式 四種主要的資料探勘任務 建模 關聯分析 聚類分析 異常檢測 建模 分類 用於 離散的目標變數 回歸 用於 連續的目標變數 關聯分析 用於發現描述資料中強關聯特徵的模式。異常檢測 識別器特徵顯著不同於其他資...

資料探勘1基礎概念

機器學習 假設用p來估計計算機程在某個任務t上的效能,若乙個程式通過利用經驗e在t中獲得了效能改善,我們說關於t和p,該程式對e進行了學習。適用機器學習的地方 1 表現或目標能夠增進 2 不知道把規則寫下 3 一切學習從資料開始 人工智慧的核心主要使用歸納 綜合而不是演繹。機器學習的三要素 資料 模...

資料探勘概念

資料探勘是從海量的資料中抽取感興趣的 有價值的 隱含的 以前沒有用但是潛在有用資訊的 模式和知識的過程。資料探勘是從存放在資料庫 資料倉儲中或其它資訊庫中的大量資料中挖掘有趣知識的過程。研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。分類 ...