深度學習在視覺感知中的運用(1)

2021-08-03 09:12:47 字數 2588 閱讀 8136

1.由於cpu的運算能力增強,硬體逐漸變廉價,以及深度學習演算法的大量編寫及完善,我們,如今可以將深度學習在視覺感知與識別中使用

在學習深度學習之前,需要理解以下幾個演算法

(1)convolutional neural networks 卷積神經網路

(2)restricted boltzman machines 限制玻爾茲曼機

(3)autoencoder 自編碼網路

(4)spare coding 稀疏編碼

2.1.1

介紹幾種不同的卷積方法

1.基於cnn(卷積神經網路)的方法 alexnet,clarifai,spp,vgg,googlenet

2.基於rbm(限制玻爾茲曼機)的方法  deep belief networks, deep olzmann machines,deep energy models

3.基於autoencoder(自編碼網路)的方法 sparse autoencoder,denoising autoencoder ,conractive autoencoder

4.基於 sparse coding(稀疏編碼)的方法。。。

並且需要了解深度學習在影象識別的幾個應用

(1)image classification 影象級別分類

(2)object detection 目標檢測

(3)image retrieval 影象檢索

(4)semantic segmentation 語義分割

(5)human pose estimation 人體姿勢識別

2.幾個名詞的解釋

(1)卷積神經網路

卷積神經網路是高度使用並且有效的訓練方式,在大多數的機器視覺應用中都有使用。

首先 網路分為三層

1.卷積層 2.池化層 3.全連線層

每一次有不同的用處

其次 神經網路通常是兩個階段的反覆迭代,即forward stage和 backward stage

forward stage 通常用於利用引數在每一層重現一張,然後**每一張圖在輸出階段的損失情況

backward stage 是用於在基於損失的情況下,利用鏈結規則計算每個引數的梯度

卷積層,使用各種函式來講整個等價劃分為相同的的中間對映特徵,生成各種特徵對映。

卷積有三個優點:

(1)相同特徵對映中的共享機制減少了引數使用的數量

(2)相鄰畫素之間的相互相關性

(3)物件位置不變性

有些優秀的針對cnn的改進演算法

nin可以將傳統的神經網路的卷積層變化為大量微型的感知器組成的一層並用這種多層的非線**知層,組成乙個非線性的神經網路。這個改進能大量改進該神經網路。

池化層,一般池化層都在卷積層之後,用於壓縮和減小計算量

一般方法為最大池化,平均池化,選擇池化,還有金字塔池化,就是多種池化大小並行得到的池化方式,但是這種池化的結果可能會導致計算資料集變多吧(一般都使用max pooling最大池化)

全連線層

該層是調節引數最多的一層,引數呼叫大概佔90%左右,其功能與傳統神經網路相似。其實卷積神經網咯就是按照傳統神經網路將全域性相關性的識別轉變成為了區域性相關性的識別。在通過進行了卷積與池化的過程之後,在保留了大部分有用資訊的前提下,再交給傳統神經網1網路用於識別。所謂的卷積和池化只是一種降低計算量的方法。

傳統神經網路所做的工作就是,講神經網路推進到具有預定義長度的向量之中。

接下來,我們可以有兩種方法去做

1.將該向量用數字量化並且進行影象分類

2.將其作為特徵向量進行後續處理。

由於全連線層具有大量的優秀引數,一般不會修改完全連線層的結構,但是由於它的引數是針對指定物體進行設計的,則該連線層可以用於遷移學習,即修改卷積與池化層,保留全連線層,用於識別新的(但是識別的分類可能大致相同,因為全連線層的引數沒有改變)

2.1.2 訓練策略

與淺層學習相比,深度學習的優點是可以構建乙個深層次的架構去學習乙個較為抽象的專案。然而,大量的引數輸入也可能導致另外乙個錯誤,那就是過度擬合。過度擬合可能造成對訓練資料擬合度較高,但是對測試資料擬合度較差。因此,我們設計了多種演算法,用於解決過度擬合的問題。例如,stochastic pooling(隨機池化)

1.dropout 

dropout方法適用於訓練資料較少的情況。因為訓練資料較少,較為容易找到這樣乙個函式,使這個函式能高度擬合當前的訓練集(資料太少了)。因此提出了一種dropout的方法,用於減少過度擬合。其主要思想是在模型訓練的過程中,讓網路某些隱含層節點的權重不工作。但是這些隱藏的節點權重又儲存下來了。這樣下一次有可能重新加入工作了(這樣我感覺是暫緩隱含節點的更新速度?不更新就可以預防過度擬合?覺得大概是能延遲擬合的時間,在這個時間段擬合程度還不是很高,但是改變不了大局吧。小修小補。)

方法是設計概率p,將實驗資料按照1-p的概率將隱含層的資料丟棄不用,但是保留其權重,讓其下次可以使用。bp更新其權值時,不再更新與其相關的權值。

其公式是

r = m.* a(wv)

變化結果 = 01列向量 與 乙個函式a相乘 ,該函式a是乙個滿足a(0) = 0的函式,意思就是滿足某些條件時會放棄部分資料集更新。(輸出集)

2.dropconnect

這裡是將輸入集按照1-p的概率將資料放棄更新。(輸入集)

鑑於文章內容太多,明天再繼續。

深度學習之單層感知器1

w的調整值 學習率 期望輸出 實際輸出 與w相對應輸入節點x 學習率一般取0到1之間,學習率太大容易造成權值調整不穩定,學習率太小容易造成權值調整太慢,迭代次數過多。1.誤差小於某個預先設定的值 2.設定最大迭代次數 假設平面座標系上有三個點,3,3 4,3 這兩個點的標籤為1,1,1 這個點標籤為...

深度感知技術在智慧型城市中的應用分析

一 背景概述 自2005年全國首批3111試點城市監控系統建設以來,我國平安城市的建設步伐已經進入到平穩階段。隨著城市經濟建設和各項社會事業的快速發展,工業化 城市化程序不斷推進,部分地區 城市病 問題日益嚴峻。為解決城市發展難題,實現城市可持續發展,平安城市 智慧型化 已成為當今世界城市發展不可逆...

計算機視覺與深度學習 學習筆記(1)

隨著計算機計算速度的不斷迭代增加,計算機視覺技術的發展也越來越好。隨著深度學習的不斷被人們重新提起,現在深度學習概念使用最多的地方便是結合計算機視覺技術。由於數字影象在儲存在計算機中時,是大量的資料,所以在使用深度學習模型進行訓練時,通常需要涉及到更多關於硬體與軟體方面的各類專業知識。計算機視覺技術...