1.2特徵向量和特徵空間
a.特徵向量:
乙個分析物件的n個特徵量測值分別為x1,x2,x3,xn,它們構成乙個n維特徵向量x,x=(x1,x2,x3,xn)t,x是原物件(樣本)的一種數學抽象,用來代表原物件,即為原物件的模式。
b.特徵空間:
對某物件的分類識別是對其模式,即它的特徵向量進行分類識別。各種不同取值的x的全體構成了n維空間,這個n維空間就是特徵空間,特徵向量x便是特徵空間中的乙個點,特徵向量也稱特徵點。
c.隨機變數:
由於量測系統隨機因素的影響及同類不同物件的特徵本身就是在特徵空間散布的,同乙個物件或同一類物件的某特徵值是隨機變數。由隨機分量構成的向量稱為隨機向量。同一類物件的特徵向量在特徵空間中是按某種統計規律隨機散步的。
隨機向量的分布函式:
聯合概率密度函式:
隨機向量的數字特徵:
1.均值向量
2.條件期望:
3.協方差矩陣:
2.1聚類分析:
a.基本思想:
假設:物件集客觀存在著若干個自然類,每個自然類中個體的某些屬性具有較強的相似性。
原理:將給定模式分成若干個組,每組內的模式是相似的,而組間各模式差別較大。
特點:1.相似的歸為一類;2.模式相似性的度量和聚類演算法;3.無監督分類;
特徵量的型別;
1.物理量----重量、長度、速度
2.次序量----等級、技能、學時
3.名義量----性別、狀態、種類
舉例:對動物進行分類:
按照不同的特徵的分類:
也可以將上述兩種特徵結合起來進行分類:
總結:選擇什麼特徵?選擇多少個特徵?選擇什麼樣的量綱?選擇什麼樣的距離測度?都會對分類結果產生極大的影響。
聚類演算法的主要應用場合:
a.在一些情況下,無法獲得訓練樣本;
b.可以獲得樣本,但耗費較多人、財力和時間;
c.作為後續較複雜分類演算法的預處理;
d.用於資料壓縮;
e.用於資料探勘,知識發現;
2.2模式相似性測度
用於描述各模式之間特徵的相似程度:
1.距離測度;
2.相似測度;
3.匹配測度;
a.距離測度(差值測度)
設向量x和向量y的距離記為d(x,y);
常用的距離測量測度有:
1.歐式距離:
2.絕對值距離(街坊距離或manhattan距離)
3.切式距離
4.明式距離
5.馬氏距離
馬氏距離的性質:對一切非奇異線性變換都是不變的。即,具有座標系比例、旋轉、平移不變性,並且從統計意義上盡量去掉了分量間的相關性。
舉例:
《模式識別》自學筆記 (二)基於統計的模式識別
解決模式識別問題的方法主要歸納為基於知識的方法和基於資料的方法兩大類。基於知識的方法,主要是以專家系統為代表的方法。其基本思想是根據人們已知的關於研究物件的知識,整理出若干描述特徵與類別間關係的準則,建立一定的計算機推理系統,對未知樣本通過這些知識推理決策類別。以專家系統為例,專家系統的組成部分包括...
模式識別中的特徵提取
模式識別中主要處理兩個關鍵問題,第一是分類器的設計,第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題,要麼是造乙個更牛的分類器,要麼是找出一些表現力更高的特徵形式。然而這個問題再最近幾年變得不那麼明朗了,分類器的研究不用多說,從剛開始的k近鄰分類器,貝葉斯分類器,到曾經風靡一時的...
模式識別之特徵提取演算法
說明 此處暫時簡單介紹下各種特徵提取演算法,後續完善。前言 模式識別中進行匹配識別或者分類器分類識別時,判斷的依據就是影象特徵。用提取的特徵表示整幅影象內容,根據特徵匹配或者分類影象目標。常見的特徵提取演算法主要分為以下3類 基於顏色特徵 如顏色直方圖 顏色集 顏色矩 顏色聚合向量等 基於紋理特徵 ...