\[entropy(s)=entropy(p_1,...p_n)=-\sum_^p_ilog_2(p_i)
\]熵越小,越純,熵為0的時候,所有樣本的目標屬性取值相同
熵越大,越混亂,最大為\(log2(m)\),\(m\)是取值種類.
資訊增益是劃分樣本資料集的不純程度和花粉後樣本資料集的不純程度的差值.
\[gain(s,a)=entropy(s)-entropy_a(s)\\
entropy_a(s)=\sum_^\fracentropy(s_i)
\]資訊增益越大,說明使用屬性a劃分後的樣本子集越純,越有利於分類.
不斷選擇資訊增益最大的屬性a來劃分子集,直到子集中的樣本屬於同乙個類別
得到乙個未知樣本\(x\)時,對於每個類別\(m\),計算
\[p(x|c_j)=\prod_^p(x_i|c_j)\\
p(c_j)\\
\mu=p(x|c_j)p(c_j)
\]找到乙個類別使得\(\mu\)最大,\(x\)屬於該類別.
對於每個測試樣本\(x\),計算他與每個訓練樣本的距離,距離樣本\(x\)最近的幾個訓練樣本占多數的類別就是\(x\)所屬的類別
資料探勘分類演算法(2)
精品導航 http www.nitaomei.com 1 資料探勘概述 隨著資料庫技術的迅速發展,資料存量大量增加著,但是挖掘海量資料的背後隱藏著的知識的手段遠遠不足。從而導致了 資料 但知識貧乏 的現象。計算機技術的另一領域人工智慧 artificial intelligence 自1956 年誕...
資料探勘演算法的分類
演算法是資料探勘模型建立的核心,由於資料探勘是乙個交叉學科,因此其演算法也集大成於一身,豐富多彩。可根據演算法分析資料的方式 演算法來自的學科 演算法所得結果的型別 學習過程的型別等,對資料探勘的演算法進行分類。一方面,資料探勘能夠通過olap分析和統計分析,實現對資料的多維度彙總,驗證人們實現對資...
資料探勘之分類演算法
分類是資料探勘 機器學習和模式識別中乙個重要的研究領域。單一的分類方法主要包括 決策樹 貝葉斯 人工神經網路 k 近鄰 支援向量機和基於關聯規則的分類等 還有用於單一分類方法的整合學習演算法,如bagging和boosting等。1 決策樹 主要用於分類和 的技術之一,是以例項為基礎的歸納學習演算法...