模式識別依賴於樣本。
1.樣本採集
首先,要採集樣本,採集方式可能是從網上獲取資源,如資料集,可能自行用感測器等裝置採集;
2.預處理與特徵生成
經過採集的資料一般都需要進行預處理,對進行矯正,或者將模擬訊號轉為數碼訊號,濾波降噪等等;預處理之後得到的特徵維度一般都比較高,需要進行特徵降維;
3.特徵降維
特徵降維一般採取兩種方式,一種是特徵選擇,指的是從多維特徵中選擇出一些特徵代替原高維特徵,保留對分類最有效的特徵,比如mtcnn人臉識別中選擇特徵中的第一維作為最終獲得的特徵
還有一種方法是特徵提取,將高維特徵對映成較低維的特徵,pca應該是屬於特徵提取方法吧,經過降維的特徵就可投入訓練
(個人覺得,預處理操作之後得到的資料只能稱為樣本,還不能稱為特徵,要經過某種演算法,提取了特徵,然後再考慮降維,比如pca等等。目前僅接觸過一些深度學習演算法,對全域性還沒有把握,不喜勿噴)
4.訓練與決策
訓練可以分為有監督訓練和無監督訓練
有監督訓練指的是訓練樣本的類別由人來定義,
無監督訓練指的是機器自行根據樣本間相似度進行劃分類別
無監督訓練更具智慧型性,是未來發展重點
模式識別演算法大體可以分為兩種:一種是統計模式識別,主流方法,另一種是結構模式識別
1.統計模式識別
1.1線性分類器:尋找線性最優分類邊界(支援向量機是為了解決線性分類的侷限性才被提出的)
1.2貝葉斯分類器:根據不同類的樣本的概率分布,利用逆概率的貝葉斯分布進行分類
1.3最近鄰分類器:將訓練融於決策中,在測試時,從訓練樣本中尋找最相似的答案
1.4神經網路分類器:目前比較火的,比如深度學習,高度非線性
1.5統計聚類分類器:無監督學習。我的理解是將相似的樣本聚集在一起,測試時計算與每個類之間的「距離」,與哪個類距離最近,就是哪個類,也有輸出n個結果,像累計分數一樣地累計各類別結果數,看哪個類別的數量最多,就歸到哪個類
2.結構模式識別:以結構相似度作為類別劃分的關鍵
2.1結構聚類演算法
2.2句法模式識別
人工智慧與OCR識別
核心提示在ocr識別技術領域,深度學習也是非常重要的。它能讓ocr識別技術更加強大,適應各種文字型別等。能更大的提公升整體的識別率。ocr識別技術處理影象越多,就會變得越來越強大。隨著資料的不短積累,識別能力都被儲存下來。李世石大戰阿爾法狗,人機大戰。然後就各種恐慌了,機械人會統治人類,如果你那麼想...
人工智慧 識別句子
include include include include include include include include include include include include include using namespace std 冠詞1,形容詞4,名詞2,動詞3,主謂 統一用冠詞 ...
《模式識別》自學筆記 (二)基於統計的模式識別
解決模式識別問題的方法主要歸納為基於知識的方法和基於資料的方法兩大類。基於知識的方法,主要是以專家系統為代表的方法。其基本思想是根據人們已知的關於研究物件的知識,整理出若干描述特徵與類別間關係的準則,建立一定的計算機推理系統,對未知樣本通過這些知識推理決策類別。以專家系統為例,專家系統的組成部分包括...