介紹除了貝葉斯統計和判別模型的兩類方法外的其他分類方法:
• 1、近鄰法
直接根據訓練樣本對新樣本進行分類,是一種最簡單的分段線性分類器:把各類劃分為若干子類,以子類中心作為類別代表點, 考查新樣本到各代表點的距離並將它分到最近的代表點所代表的類。
決策規則:
已知樣本集s = ,設有 個類別即 ∈ 。 定義樣本之間的距離 , =∥ - ∥。 對未知樣本 , 其與 的距離為
則 ∈ 或 類,針對不同的應用, 距離 (⋅,⋅)有不同的定義。
k近鄰法作為最近鄰法(1近鄰法) 的推廣: 找出 的 個近鄰, 看其中多數屬於哪一類, 則把 分到哪一類。 近鄰分類器中的 是乙個重要引數, 當 取不同值時, 分類結果會有顯著不同。 另一方面, 若採用不同的距離計算方式, 則找出的「近鄰」 可能有顯著差別, 從而也會導致分類結果有顯著不同,k近鄰(knn)學習是一種常用的監督學習方法。
• 2、決策樹與隨機森林
可應用於非數量特徵,把特徵選擇和分布決策結合起來。前面介紹的所有分類方法只針對樣本特徵時數量特徵, 然而很多實際問題中描述物件可能用到非數值特徵。決策樹是非線性分類系統, 同時也是多級決策系統:分類是依次進行的直到獲得最終可以接受的型別。 按照一定的順序, 將特徵空間分為與類對應的唯一區域。決策樹學習的目的是為了產生一棵泛化能力強, 即處理未見示例能力強的決策樹(模型) 。
• 決策樹由一系列節點組成, 每個節點代表乙個特徵和相應的決策規則。 根節點代表所有樣本, 經過節點後被劃分到各個子節點中, 每個子節點再用新的特徵來進一步決策, 直到最後的葉節點。
• 決策樹的構建過程本質上就是選擇特徵和確定決策規則的過程。 一般而言, 隨著劃分過程不斷進行, 我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別, 即結點的「純度」 (purity)越來越高。
• 「資訊熵」 是度量樣本集合純度最常用的一種指標, 假定當前樣本集合 中 類樣本所佔的比例為 = 1, ⋯ , , 則 的資訊熵定義為
( ) 值最大代表樣本純度越低;值越小,純度越高。
• 若把 個樣本集 根據某一特徵 劃分成 組, 每組 有樣本 個, 則不純度減少量計算公式為
上式計算值稱為資訊增益。
• 一般而言, 資訊增益越大, 則意味著使用特徵 來進行劃分所獲得的「純度提公升」 越大。 ——分類特徵選擇方法
隨機森林就是建立很多決策樹, 組成乙個森林, 通過多棵樹投票進行決策。
•3、boosting方法
將多個分類器進行融合得到有效的分類方法,與隨機森林思想類似, boosting方法融合多個分類器進行決策來提高分類的效能。 不同的是, boosting方法不是簡單的進行投票決策, 而是通過迭代過程對分類器的輸入和輸出進行加權處理。
boosting+svm構成最有效的分類技術。
模式識別分類
摘自 模式識別導論 齊敏,李大健,郝重陽,清華大學出版社,2009.按照理論分類 統計模式識別 是定量描述的識別方法。以模式集在特徵空間中分布的類概率密度函式為基礎,對總體特徵進行研究,包括判別函式法和聚類分析法。是模式分類的經典型和基礎性技術,歷史最長,目前仍是模式識別的主要理論。句法模式識別 也...
模式識別總結
1 貝葉斯決策 分類器的設計 先驗概率和後驗概率 最小風險貝葉斯判別 2 概率密度函式估計 引數估計 貝葉斯估計 最大似然估計 非引數估計方法 3 線性判別函式 線性判別函式設計的一般步驟 線性分類器 fisher線性判別 感知準則函式 決策樹4 聚類分析 k均值方法 迭代自組織的資料分析方法 5 ...
模式識別(3) SVM分類演算法
3.1.svm演算法原理和分析 svm support vector machines 中文名字叫做支援向量機。svm也是尋找乙個超平面,使得訓練集中的點距離分類面盡可能的遠,就是讓這個分類面兩側放入空白區域最大。支援向量就是距離分類平面最近的一些樣本點,對決策面的選取有決策作用。svm訓練 cle...