識別:recognition=re(再)+cognition(認知)
依據相似性進行識別,而非完全相同
模式(pattern):一類事物具有的共同的特徵
模式識別:依據事物的特徵進行概念歸類
人臉識別,語言識別,自然語言理解,手勢識別,腦電識別,目標跟蹤
基礎知識:線性代數,概率論與數理統計
目標:1,理解掌握模式識別的基礎知識
2,分析設計模式識別的解決方案
3,程式設計實現模式識別的演算法系統
基本概念:訓練與分類,特徵空間,緊緻性與可分性
基本原理:分類與聚類,有監督與無監督,特徵降維
主要演算法:線性分類器,貝葉斯分類器,模糊模式識別,神經網路模式識別
加入了工程實踐
樣本:用於識別的事物
樣本到特徵表達的數學轉換:從樣本中提取特徵,並用特徵表示樣本
所有樣本轉化為特徵表達後,他們的整體就被稱作特徵空間。在特徵空間中,每個樣本都可以看做是一組特徵表達的乙個點,樣本之間的相似程度可以用點之間的相似程度來計算。
同一類事物,有共同的特徵,所以同一類事物的相似度大於不同類別的事物。特徵空間中屬於同一類樣本的點也會聚集在一起,形成了特徵空間中類的概念。
對樣本的識別問題轉化為樣本空間中點的分類問題。看乙個點與哪個類的眾多樣本相似度最高,就可以歸到那個類當中。
不同型別的特徵空間:向量空間(特徵抽象為維度),相似度可以用向量空間裡的距離來測量,每一類的區域則體現在向量空間中該類的統計分布。集合空間
模式識別的核心是分類器,分類的依據,是樣本的特徵和分類決策規則(模型or演算法,以及從樣本中抽取哪些特徵)
有監督學習:對每個類別給定樣本,形成具有類別標籤的訓練樣本集,分類器可以根據不同類的樣本發現乙個類之間有什麼共同特徵,也就是從訓練集中學到分類決策規則。樣本標籤是由人給定的,是從人的經驗中學習分類知識,有監督學習的人工智慧的智慧型水平是有上限的。
無監督學習:使用沒有類別標籤的樣本進行學習,分類器自主根據樣本與樣本之間的相似度來將樣本集化為不同類別,採用無監督學習的分類器能達到更高的智慧型水平
緊緻性準則:緊緻性好的樣本,類內相似度》類間相似度
相似度如何度量?距離:a)正定性:只有當自己與自己計算距離的時候才為0,其他情況都大於0
b)對稱性:a,b的距離與b,a的距離一樣
c)傳遞性:a,c的距離小於等於a,b的距離加b,c的距離
滿足標準的距離定義很多,在向量空間中可以定義歐氏距離,曼哈頓距離,切比雪夫距離……
特徵的維度越多,用來識別的資訊就越豐富,不斷增加特徵識別的維度,會導致維數災難。
維數災難:特徵維數越高,樣本集越稀疏,緊緻性越差,分類器效能就越差。導致維數災難的根本原因:訓練集樣本的數量不足。
解決維數災難:增加樣本數(不可行),盡可能降低維度,提公升每個維度在分類器中的效能
訓練好的分類器對於未知新樣本正確分類的能力,稱為泛化能力。樣本由於誤差,雜訊等原因,並不一定準確,而訓練時把異常的樣本也納入訓練,會導致泛化能力的降低,稱為過擬合。
樣本——>模式採集(感測器,模數轉換,變送器)——>預處理與特徵生成(濾波降噪)(一般會得到很多維數的特徵)——>特徵降維——>分類器訓練(有監督,無監督)——>分類決策(評估,改進分類器效能)
模式識別 統計模式識別(6)
上一節,我們討論了最小錯誤率分類器,接下來這一節我們將討論最小風險bayes分類器。1.問題提出 1.最小錯誤率bayes決策的最小錯誤率 概率意義上最優,在工程上是否是最優?2.錯誤分類的結果 代價或風險會是怎樣的?考慮癌細胞影象識別的例子 3.出錯的可能情況 正常細胞 1錯分為異常 2,異常細胞...
模式識別 統計模式識別(7)
上兩節我們介紹了最小錯誤率和最小風險bayes分類器,接下來談談最小最大決策。1.問題提出 假設c 2 現在我們假定一種情況,先驗概率未知或者不確定的前提,在這種前提下,絕對意義的最小風險不存在,這種情況下我們怎麼求bayes分類器。2.求解思路 雖然p 1 和p 2 未知,但我們可以假設他們確定,...
模式識別 句法模式識別(1)
圖形或影象目標的形狀或結構千變萬化,目標 模式 的差異也在於其形狀或結構的不同,這種模式稱為結構模式,基於形狀或結構的模式識別稱為結構模式識別。數字影象處理學中,鏈碼是描述目標邊緣和輪廓的常用的編碼方法。用字元或符號的來表示影象目標的區域性邊緣的走向。freeman鏈碼 影象像元之間邊緣的走向用方向...