特徵:上面例子裡面,我們區分了蘋果和旁邊的滑鼠,可能通過蘋果和滑鼠的形狀,或者顏色,也有可能是味道,但不管通過什麼,都是他們本身的一種屬性,這個又可以叫做特徵(feature)。對於特定任務的性質:我們設計出來的模式分類演算法或者系統都是針對某一特定問題,比如區分滑鼠和蘋果,這個演算法或者系統可能並不適用於分類蘋果和橘子,能夠通用識別各種各樣物體的系統,除了人和部分高階動物外,目前還是個大問題(書中作者表示,現在真的搞不定0.0)。模型:原文用的兩種魚進行分類,但根據我們上面的例子,滑鼠和蘋果他們從某種角度可以用不同數學度量來分別表示自己的某些特徵,這個就是兩個東西有不同模型。
模式分類:為了將蘋果和滑鼠,我們通過我們的感測器,測得兩個物體某一屬性的不同資料,根據模型(由測得的資料型別組成的模型)來將物體進行分類(到底是蘋果還是滑鼠)的這個過程,換句話說,我們設計採集屬性,建立採集屬性的模型,區分不同類之間的模型。
資料採集:這個詞不是解釋它的意思,它的意思就是資料採集沒有別的意思,但是這裡要說一下的是,一旦資料經過採集,那麼原有資訊一定會丟失,而且大部分時間採集以後的資料丟失率是很高的,我們期望採集到的是更多的,對分類更有利的資料,盡量拋棄無用資訊。
總體代價函式:完美主義者對這個可能比較反感,不得不說,不論什麼分類都有出錯的時候,而我們的目標是最大可能的降低出錯率,或者將乙個叫做「代價函式」的函式最小化,代價函式可以這樣通俗一下:如果你把蘋果當做了滑鼠,你的代價是,不能工作了;如果你把滑鼠當做了蘋果,並且吃了下去,你的代價就是輕者手術,重者嗚呼。這就是你分錯類的代價,所以你寧可天天把蘋果當滑鼠,也不願意把滑鼠當蘋果。當代價分配為所有出錯的懲罰都一樣的時候,等效於最小化出錯率。
決策:模式分類(模式識別,模式判別)種最關鍵的一步,其本質是資訊壓縮的過程,比如乙個蘋果擁有的所有資料經過決策後他只有乙個屬性(蘋果)
本書中使用個較多是基於統計特性的模式,從概率的觀點來解釋一些原理,實現一些系統,概率論不好的速度去補習。
另外模式表達有很多種,但常用的是兩種,一種是實數向量法,比如蘋果的(重量,高度,最大寬度)為(10,10,20),這就是乙個實數向量的模式表示,其中每乙個項都是乙個特徵,還有一些特徵也是實數向量,但其本身的物理含義不明確,或者不直觀,比如sift特徵的128維描述子。還有一種是屬性列表的模式表達,比如蘋果的屬性列表(顏色,產地,口感)為(紅,山東,甜),這就是個屬性列表組成的模式。
我們更傾向於,使用較少的特徵,完成最好的分類,較少的特徵帶來的好處是
a)更簡單的分類區間當樣本空間不足或者特徵都不太好用時候,可以加入第三方知識背景,但前提是你能得到這些資訊,比如蘋果是媽媽拿到桌子上的,滑鼠是自己拿到桌子上的,如果我們的機器捕捉到,這個物體是自己拿出來的,所以更傾向於判定物體為滑鼠。b)更容易訓練的分類器
模式識別種集中比較重要的技術:
回歸分析![這裡寫描述](函式內插
概率密度估計
##模式識別系統
結合我少量的工作經驗,模式識別系統是我們主要的,要設計演算法的地方,整個系統的難點,但是相信我設計迴圈,也就是下一部分才是工作量最大的地方。
首先來看模式識別系統一般的整體結構和工作流程:
![這裡寫描述](
接下來詳細的介紹下識別系統的各部分,其實這些如果做過一次模式識別程式的人,基本都有做過這些步驟,比較通用的一種系統結構。首先是訊號的獲取,無論是光學訊號,電訊號,聲音頻號,還是力學訊號,輸入到計算機,那麼必須要取樣,或者叫做採集,於是必須使用感測器,通過採集後的訊號混有雜訊和干擾訊號,分割後,我們提取我們關心的訊號,去除不關心的或者少部分比較關心的訊號,選擇可靠的特徵,進行分類,最後根據分類結果進行決策。
1)感測器:感測器是對訊號進行採集的裝置,可以根據具體問題選擇,本系列不研究硬體採集裝置,但必須要知道的是,大部分訊號雜訊是這裡產生的,而且只要有取樣就有資訊損失,這是無法避免的。![這裡寫描述](2)分割器,這是模式識別系統裡面最深層的問題之一,也是最難解決的環節,這個環節的成敗和效果對分類結果會產生直接影響,分割其實是組織結構學中的乙個問題,也就是我們更關心資料集合中的乙個子集,而如何不偏不倚的得到這個子集,是乙個很困難的問題。如何找到一張中的人臉,直接決定了識別這個人臉是誰的結果,如果一張草原上的人的,分割的結果是兩個羊駝的臉,想識別出這個臉的身份肯定沒戲。而人類的視覺就具有這種不可思議的功能,仔細思考,真的太神奇了。
3)特徵提取,特徵提取和分類器之間界限不是很清楚,因為有時候不用提取特徵也可以進行分類,或者如果你的分類器已經進化到一定階段以後,可以完全對輸入訊號進行準確分類,而不需複雜的特徵提取過程,但是這裡講特徵提取拎出來講的原因,是我們更希望有這樣乙個部分使得,同類訊號進行分類時其訊號特徵非常相近,而不同類之間的訊號特徵盡可能遠離,而且更重要的一點是,計算出來的特徵,對非類別變化的其他變化不敏感(翻譯通俗一點就是,乙個蘋果這麼旋轉,怎麼切,怎麼咬,它計算出來的特徵值都應該不變,或者還是更接近蘋果那一類,而不是滑鼠),特徵提取面向問題,不同的問題,有不同的解決辦法。
4)分類器:未來我們主要研究的是分類器,這個器的主要功能就是特徵提取後或者直接對輸入訊號進行分類,此處進行後資訊會被壓縮很多,比如判斷滑鼠和蘋果,如果用影象的話,一張640x480的灰度圖(8 bits),共有,8bi
ts
×640
×480
8bits \times 640 \times 480
8bits×
640×
480位的訊號,而壓縮後的訊號只有,是蘋果,是滑鼠,即只有1bits。 分類器主要面對的挑戰是訊號的波動,同類之間的波動,和不同類之間的波動,或者有可能出現訊號的丟失,各種各樣的問題。
5)後處理主要要考慮的是代價函式,或者叫做損失函式,或者根據上下文的一些資訊,進行最後的決斷。
好吧,說說我的痛苦經歷,採集資料是最痛苦的,首先必須準備好資金,因為你面臨著選擇感測器和感測系統的問題,最簡單的,做視覺都知道相機的重要性,以及場景的光線,背景等,這些理論上在設計階段都是可控的,但必須要考慮到你目前問題的規模和你的自己預算,這部分成本必須要考慮到,不然就只能做點簡單的設計,想要得到好的結果,這部分不可避免,而且有一些是從演算法或者其他後處理解決不了的。而且,資料採集的工作遠大於其他部分!!
特徵選擇相對來說更加偏向設計,也是比較考察個人的先驗知識,對整個問題的把握,這部分以及下一部分選擇模型都是對知識的應用以及對知識了解的程度來決定好壞的,所以要多研究理論,然後這個時候就可以讓理論大顯神通了,切記不要乙個個的試(這種方法叫做窮舉,當使用這種方法進行破解的時候,叫做暴力破解,我以前的組長,高階工程師,高階專案經理,資深員工,不知道窮舉啥意思,這裡給他科普一下,不過他估計沒時間看技術部落格,應該是去做週報去了),所有這些選擇模型和特徵,都來自基礎知識的運用,加上個人的靈感以及對問題的理解,這個是要重點修煉的地方。書上也重點強調了選擇的重要性,但目前還沒有一種通用的方法,幫我們做這些選擇,這裡真正的體現工程師的智慧型和知識功底,只會跟著別人走的人只能叫幹活的,而不是工程師!
訓練模型就相對容易了,只是完成你的分類**,讓計算機飛快的計算你的演算法, 這裡也有乙個問題就是計算量,如何降低學習過程的運算量(時間複雜度,空間複雜度),以及你目前的計算資源都是要考慮的,但是最近幾十年的研究表明,基於樣本的學習是設計分類器最有效的辦法。
評價過程就是你對結果以及整個過程的接受與否,包括例如結果是否存在「過擬合」或者「欠擬合」的問題,計算過程時間複雜度的問題,這個過程對測試過程計算複雜度要求更苛刻一些,相比之下學習過程的複雜度要求更寬鬆,但也要追求高效。
##學習和適應
這部分主要講解學習演算法的一些基礎知識:
監督學習:給出分類結果,對模型進行優化是結果盡可能與給出的分類結果一致##總結非監督學習:不給出結果,演算法根據規則自由發揮,產生若干個類別
強化學習:與監督學習不同,其結果不是給出是否分類正確,而是給出離正確結果的距離是多少,然後再進行迴圈優化
雖然問題很複雜,也很多,但我們已經知道,這些問題必然能解決,解決問題的方法就在你的腦子裡,其次最近的數學相關理論已經發展起來了,最後,還有更多令人激動的問題等待的我們去解決。。
模式識別緒論
模式識別 第二版 邊肇祺 清華大學出版社 我們把通過對具體 的個別事物進行觀測所得到的具有時間和空間分布的資訊稱為模式,而把模式所屬的類別或同一類中模式的總體稱為模式類 或簡稱為類 也有人習慣於把模式類稱為模式,而把個別具體的模式稱為樣本 兩種基本方法 1.統計模式識別 資料獲取,預處理,特徵提取和...
模式識別緒論
模式識別課程 中國科學院模式識別國家重點實驗室 期末複習 1.機器學習與模式識別 模式識別 主要針對感知資料,針對應用 機器學習 主要研究理論演算法,大部分針對分類 資料探勘 主要針對非感知和混合資料 2.引數模型與非引數模型 這裡的 引數 是指資料分布的引數.二者的主要區別是關於資料分布的假設,引...
模式識別 緒論
廣義地說,存在於時間和空間中可觀察的物體,如果我們可以區別它們是否相同或是否相似,都可以稱之為模式。巨集觀的認為,根據事物的一組主要的有意義的特徵或屬性對事物的一種定量的或結構的描述稱為模式。模式類 把所見到的具體事物稱為模式,把它們歸屬的類別成為模式類。模式識別 研究一些自動技術,利用這些技術,計...