文獻閱讀記錄1

2021-07-25 22:51:51 字數 3641 閱讀 5917

文獻《影象物體分類與檢測演算法綜述》2013黃凱奇、任偉強、譚鐵牛

中文名詞收集:

非剛體形變

物體分類任務要求回答一張影象中是否包含某種物體,

對影象進行特徵描述是物體分類的主要研究內容。

一般來說,物體分類演算法通過手工特徵或者特徵學習方法

對整個影象進行全域性描述,

然後使用分類器判斷是否存在某類物體。

典型的學習特徵表達:詞包模型(bags-of-words),深度學習模型

物體檢測任務需要回答一張影象中在什麼位置存在乙個什麼物體。

因而除特徵表達外,物體結構是物體檢測任務不同於物體分類的最重要之處。

物體檢測方法側重於結構學習,以形變部件模型為代表。

基於詞包模型的物體分類:

底層特徵提取:

基於興趣點檢測:通過 某種準則 選擇具有明確定義的、區域性紋理特徵比較明顯的畫素點、邊緣、角點、區塊等,

並且通常能夠獲得一定的幾何不變性,從而可以在較小的開銷下得到更有意義的表達。

大量的區域性描述儘管具有更高的冗餘度,但資訊更加豐富,

後面再使用詞包模型進行有效表達後通常可以得到比興趣點檢測更好的效能。

常用的區域性特徵包括 sift(scale-invariant feature transform,尺度不變特徵轉換)、

hog(histogram of oriented gradient,方向梯度直方圖)、

lbp(local binary pattern,區域性二值模式)

特徵編碼:

密集提取的底層特徵包含大量冗餘與雜訊,使用一種 特徵變換演算法 對底層特徵進行編碼,

從而獲得更具區分性、更加魯棒性的特徵表達。

對物體識別效能具有至關作用的用,大量研究工作集中在尋找更強大的特徵編碼方法。

重要的特徵編碼演算法:

向量量化編碼(硬量化編碼)

核詞典編碼(軟量化編碼)

稀疏編碼

區域性線性約束編碼

顯著性編碼

fisher向量編碼

超向量編碼

向量量化編碼(硬量化編碼):最簡單的特徵編碼。使用乙個較小的特徵集合(視覺詞典)對底層特徵進行描述,達到特徵壓縮的目的。

向量量化編碼只在最近的視覺單詞上響應為1,因此又稱 硬量化編碼、硬投票編碼,

(缺點)這意味著向量量化編碼只能對區域性特徵進行很粗糙的重構。

(優點)但編碼思想簡單、直觀,比較容易高效實現,得到了廣泛使用。

(存在問題)影象區域性特徵常常存在一定的模糊性,乙個區域性特徵可能和多個視覺單詞差別很小。

這時候若使用向量量化編碼,將只利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞。

軟量化編碼(核詞典編碼):區域性特徵不再使用乙個視覺單詞描述,而是距離最近的k個視覺單詞加權後進行描述,

有效解決了視覺單詞的模糊性問題,提高了物體識別精度。

稀疏編碼:通過 最小二乘重構 加入 稀疏約束 來實現在乙個 過完備基上 響應的稀疏性。

(內在原理)對於乙個很大的特徵集合(視覺詞典),乙個物體通常只和其中較少特徵有關。

例如自行車通常和表達 車輪、車把 等部分的視覺單詞密切相關,而與飛機機翼、電視螢幕等關係很小。

(存在問題)相似的區域性特徵可能經過稀疏編碼後再不同的視覺單詞上產生響應,

這種變換的不連續性必然會產生編碼後特徵的不匹配,影響特徵的區分效能。

區域性線性約束編碼:通過加入區域性線性約束,在乙個區域性流形上對底層特徵進行編碼重構,

這樣既可以保證得到的特徵編碼不會有稀疏編碼存在的不連續性問題,也保證了稀疏編碼的特徵稀疏性。

區域性性是區域性線性編碼中的乙個核心思想,通過引入區域性性,一定程度上改善了特徵編碼過程的連續性問題,

即距離相近的區域性特徵在經過編碼之後應該依然能夠在乙個區域性流形上。

(名詞釋義)流形(manifold):流形學習(manifold learning)是機器學習、模式識別中的一種方法,在維數約簡方面具有廣泛的應用。

它的主要思想是將高維的資料對映到低維,使該低維的資料能夠反映原高維資料的某些本質結構特徵。

流形學習的前提是有一種假設,即某些高維資料,實際是一種低維的流形結構嵌入在高維空間中。

流形學習的目的是將其對映回低維空間中,揭示其本質。(來自知乎 jason gu)

顯著性編碼:引入了視覺顯著性的概念,如果乙個區域性特徵帶最近和次近的視覺單詞的距離差別很小,

則認為這個區域性特徵不是「顯著的」,從而編碼後的響應也很小。

huang等人發現,顯著性表達配合最大值匯聚在特徵編碼中有重要作用。

超向量編碼、fisher編碼是近年提出的效能最好的特徵編碼方法,基本思想有相似之處,

都可以認為是編碼區域性特徵和視覺單詞的差。

這種特徵編碼方式得到的特徵向量表達通常是 傳統基於重構編碼方法的m倍(m是區域性特徵的維度),

儘管如此,兩者在pascal voc、imagenet等極具挑戰性、大尺度資料庫上獲得了當時最好的效能。

fisher向量編碼:同時融合了產生式模型和判別式模型的能力,與傳統的基於重構的特徵編碼方法不同,

它記錄了區域性特徵與視覺單詞之間的一階差分和二階差分。

超向量編碼:直接使用 區域性特徵與最近的視覺單詞的差 來替換之前簡單的硬投票。

特徵匯聚:

空間特徵匯聚是指在特徵編碼後進行的特徵集整合操作,通過對編碼後的特徵,每一維都取其 最大值或平均值,

得到乙個緊緻的特徵向量作為影象的特徵表達。

這一步得到的影象表達可以獲得一定的特徵不變性,同時避免了使用 特徵集進行影象表達的高額代價

最大值匯聚在絕大部分情況下效能優於平均值匯聚。

空間金字塔匹配(spatial pyramid matching,spm):提出將影象均勻分塊,然後每個區塊裡面單獨做特徵匯聚,

並將所有特徵向量拼接起來作為影象最終的特徵表達。

操作簡單且效能提公升明顯,成為當前基於詞包模型的影象分類框架中的標準步驟。

分類器:

常用的分類器:支援向量機、k緊鄰、神經網路、隨機森林

基於最大化邊界的支援向量機是使用最廣泛的分類器之一。

作者基於歷年pascal voc競賽對於各種影象分類與檢測方法進行介紹,

在影象分類競賽中,2005-2023年的隊伍應用的大多數是詞包模型,

在影象檢測中,2005-2023年的隊伍應用的大多數是以形變部件模型(2023年提出)為基礎。

強調了表達學習結構學習分別在物體分類和檢測中的重要意義。

在文章中,對於深度學習方法,作者只是簡單介紹了深度學習方法的幾種模型,以及深度學習的侷限性。

提出了將顯式結構先驗嵌入到深度學習模型中,可以有效降低網路引數空間的規模,減少區域性極值的問題,從而可以更加有效解決檢測、分割等任務。

2017.1.11逸夫樓圖書館

文獻閱讀(1)

針對的問題 利用商用wifi裝置進行aoa估計 面臨的挑戰 天線數量的限制 相位測量中引入的未知的相位偏移 解決方案 利用人體對手機進行自然旋轉,計算不同角度測量的相位差分,以消除相位偏移,提出d music演算法計算差分生成的等效入射訊號角度。再利用慣性感測器 陀螺儀 測得的旋轉角度計算初始和最終...

怎樣閱讀文獻 1

1.目標 漫無目的則毫無效率,抓不住重點才效率低下。選題之前可能會有一段時間處於迷茫狀態,不知從哪入手。胡亂看了大量文獻,卻不知所以然。在導師的指導下,在同行的啟發下,有些人可以迅速明確目標,有的放矢,入門就從這裡開始。即使導師不導,沒有定題,自己也要先設定乙個具體的問題看文獻。不管你將來做不做這些...

如何閱讀文獻

文獻分類 文章全名 作者 刊物縮寫 出版年給文章命名,用多級目錄分類對文章進行分類,文獻累計到一定程式就分類採用硬拷貝的方式進行集中整理。當一篇文章涉及多個主題的時候,多級目錄分類就不太靈光了,我目前的做法是部分兩邊都放 部分只放最重要的主題。將我的博士 分成6個小方向。然後將資料分成6個部分。每個...