分類是資料探勘、機器學習和模式識別中乙個重要的研究領域。
單一的分類方法主要包括:決策樹、貝葉斯、人工神經網路、k-近鄰、支援向量機和基於關聯規則的分類等;
還有用於單一分類方法的整合學習演算法,如bagging和boosting等。
(1)決策樹
主要用於分類和**的技術之一,是以例項為基礎的歸納學習演算法,從一組無次序、無規則的例項中推理出決策樹表示的分類規則。目的是找出屬性和類別間的關係,用它來**將來未知類別記錄的類別,自頂向下,從根節點開始層層比較,在葉節點得到結論。
主要的決策樹演算法有id3、c4.5(c5.0)、cart、public、sliq和sprint演算法等。他們在選擇測試屬性採用的技術、生成的決策樹的結構、剪枝的方法以及時刻,能否處理大資料集等方面都有各自的不同之處。
(2)人工神經網路
神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。訓練改變了網路節點的連線權重使其具有分類的功能,經過訓練的網路就可以用於物件的識別。
神經網路已有上百種不同的模型,常見的有bp網路、徑向基erbf網路、hopfield網路、隨機神經網路、競爭神經網路等,但是當前的神經網路仍普遍存在收斂速度慢,計算量大、訓練時間長和不可解釋等缺點。
(3)支援向量機
支援向量機特點是根據結構風險最小化準則,以最大化分類間隔構造分類超平面來提高學習機的而泛化能力,較好的解決線性、高維數、區域性極小點等問題。對於分類問題,支援向量機演算法根據區域中的樣本計算改區域的決策曲面,由此確定該區域中未知樣本的類別。
資料探勘之分類
分類的定義 通過學習得到目標函式f 也叫 分類模型 把每個屬性集x對映到乙個預先定義好的類稱號y。相關定義 訓練集 屬性 類標號 模型 測試集 分類與聚類的區別 聚類 無指導的學習,事先沒有標籤,而通過某種成因分析找出事物之間存在聚集性原因的過程。面對一堆資料,將這堆資料分成幾類 分類 有指導的學習...
資料探勘之分類
分類是構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別。分類的演算法分為以下兩步 1 學習步,通過歸納分析訓練樣本集,來建立分類模型,得到分類規則 2 分類步,先用已知的測試樣本集評估分類規則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測樣本集進...
資料探勘之分類指標
場景如下 假設原樣本有兩類,true和false,其中 1.總共有t個類別為true的樣本 2.總共有f個類別為false的樣本 分類 後 1.總共有tt個類別為true的樣本被系統判為true,ft個類別為true的樣本被系統判為false,則tt ft t 2.總共有ff個類別為false的樣本...