這兩天一直在看深度學習的東西,看的頭暈腦脹,不過暈乎歸暈乎,感覺對模式識別中的特徵提取有了更深一點的小理解,暫時記載下來。
突然覺得,模式識別的所有問題都繞不過兩個關鍵門檻,第一是分類器,第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題,要麼是造乙個更牛的分類器,要麼是找出一些表現力更高的特徵形式。
然而這個問題再最近幾年變得不那麼明朗了,分類器的研究不用多說,從剛開始的k近鄰分類器,貝葉斯分類器,到曾經風靡一時的svm,再到目前處在浪潮之巔的deeplearning(谷歌大腦主要就是用的這個,與其說是分類器,這應該更傾向於特徵提取),分類器越來越複雜,效能越來越高。特徵提取呢,大致也是如此。但存在這樣乙個問題,就是對經典的模式分類問題,比如指紋識別,文字識別等等,有規矩可循,特徵提取自然舉足輕重(角點,拐點之類的);但對於那些更抽象、更智慧型、更擬人的模式分類問題,比如美麗度識別、警覺度識別、表情識別等等,我們用什麼特徵來描述它們呢?特徵提取充當什麼樣的角色?
其實對於沒搞過模式識別或者是模式識別的初學者來說,這的確值得思考。做慣了傳統的識別,再去研究美麗度、表情、警覺度這些抽象的東西,確實有點不適應。究其原因,就是找不到實實在在的東西去描述美麗度、表情、警覺度這些抽象的概念,提不到特徵,分類識別自然也就無從談起。
難道抽象形式的分類問題無從解決了嗎?這個命題顯然是錯的,但提不到特徵怎麼解決呢?這就是問題的關鍵,不是提不到特徵,只是提取不到客觀的、可見的、可衡量的特徵。按照稀疏表示人臉識別的先驅ma yi的觀點:「影象本身是影象內容資訊表示最冗餘、也是最全面的存在」,也就是說,影象本身就是特徵的存在。換句話說,感覺實在提取不到特徵了,那就千拳歸一路,把影象本身直接送給分類器去吧。
用分類器直接處理影象本身,看似魯莽,其實蘊藏著真正至簡的大道理。每種特徵都有自身的侷限性,都是有意突出影象某些方面的特徵,簡化甚至忽略別的方面的特徵,導致的最終結果就是資訊的丟失。gabor特徵搞人臉識別效果好,但它直接忽略了整體的亮度特徵,那白人和黑人怎麼辦?所以只要能提去出具體的、客觀實在的特徵,就不可避免的存在著資訊的丟失,那些丟失的次要資訊,對於某些問題的影響可以忽略(如指紋識別、文字識別),但對有些主觀問題的影響卻是不可估量的。總之,這種機械的選擇特徵來替代原影象,是機器的思維方式,不是人的思維方式。
當今對於那些無法用具體特徵描述的分類問題,存在兩種主流的處理方式,要麼乾脆直接把影象送給分類器去,這是稀疏表示問題(ma yi在文章《robust face recognition via sparse representation》中證實稀疏表示分類器的人臉識別效能對特徵選擇的依賴程度很小);要麼然機器自己去學習該用那些特徵,機器根據樣本自己決定特徵的取捨,這更是一種類人的智慧型化的做法,這也就衍生出了當今如火如荼的東西:深度學習(deep learning),名噪一時的谷歌大腦就是這樣弄出來的。換句話說,如果不能判斷解決乙個識別問題應該用哪些特徵,那就讓機器自己去找好了。就好像支援向量機一樣,既然人工找不到最優的分類超平面,就讓機器自己去對映,自己去找。恰巧的是,人的大腦也是這麼幹的。
總之,在當今這個面向資料的年代,特徵選擇這個任務越來越不適合人工來做了,典型費力不討好的工作,讓機器自己去找,更符合人的思維。但特徵提取是不存在了嗎?不是的,因為deep learning就是在提特徵,只不過讓機器自己來做。
模式識別中的特徵提取
模式識別中主要處理兩個關鍵問題,第一是分類器的設計,第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題,要麼是造乙個更牛的分類器,要麼是找出一些表現力更高的特徵形式。然而這個問題再最近幾年變得不那麼明朗了,分類器的研究不用多說,從剛開始的k近鄰分類器,貝葉斯分類器,到曾經風靡一時的...
模式識別之特徵提取演算法
說明 此處暫時簡單介紹下各種特徵提取演算法,後續完善。前言 模式識別中進行匹配識別或者分類器分類識別時,判斷的依據就是影象特徵。用提取的特徵表示整幅影象內容,根據特徵匹配或者分類影象目標。常見的特徵提取演算法主要分為以下3類 基於顏色特徵 如顏色直方圖 顏色集 顏色矩 顏色聚合向量等 基於紋理特徵 ...
基於顏色特徵提取的數字識別
最近因為畢業課題的需要,初學opencv 鑽研一周,終於有一點點小小的收穫。編譯環境 vs2013 opencv.4.9 任務 攝像頭識別電梯中已亮的按鈕數字 目的 框選圖中已亮的3和5 號按鈕。話不多說,上 rgb直方圖 把r 通道分為32個 bin int rbins 32 int histsi...