2.光流疊加:將l個連續幀的光流通道堆疊,形成2l個輸入通道,表示了一系列幀之間的運動。任意幀的卷積網路輸入卷可構造為:
輸入卷的第三項堆疊了l幀序列的水平和垂直向量場。
3.軌跡堆疊:受基於軌跡的描述符的啟發,用沿運動軌跡取樣的光流替換在多個幀相同位置取樣的光流。構造輸入卷形式如下:
pk表示了沿軌跡的第k個點,假設軌跡的第乙個點從幀τ中位置(u,v)開始,pk可遞迴定義為:
4.兩種光流疊加/堆疊方式的比較
5.雙向光流:通過計算另一組相反的位移場獲得。
6.平均流減法:通過從每個位移場d中減去其平均向量,補償攝像機的運動。換個說法就是對網路輸入進行零中心化,因為乙個方向的運動和另乙個方向的運動一樣有可能。
7.計算光流:文章中通過使用opencv工具箱實現,並且在訓練前預先計算光流,將流的水平和垂直分量線性地重新縮放到[0:255]範圍,並用jpeg壓縮(解壓縮後,將流重新縮放回其原始範圍)。這將ucf-101資料集的流大小從1.5tb減少的27gb。
四、空間流卷積網路
本質上是一種影象分類架構。在文中通過使用與時空卷積網路相同的訓練和測試資料增強方式在imagenet ilsvrc-2012上進行預訓練,然後在預訓練好的卷積網路上訓練最後一層(dropout率=0.5)可以達到最理想的效能。
五、時間流卷積網路
1.輸入配置:由於卷積網路需要固定大小輸入,故從單個卷iτ中抽取乙個224×224×2l大小的子捲作為輸入傳遞到網路。
2.網路配置:與空間網路基本相同。如架構圖所示,對應於cnn-m-2048架構。所有隱藏層權重均用relu啟用功能;maxpooling在3x3空間視窗以步長2執行。空間和時間卷積網路配置之間的唯一區別是,我們從後者刪除了第二個標準化(normalization)層,以減少記憶體消耗。
3.光流配置
①經過評估得出結論,在輸入中疊加多個位移場有益(l=10較佳);②採用平均流減法補償攝像機運動對效能有一定提公升;
③光流疊加比軌跡堆疊效能更好;
④在時間流網路中採用雙流光流僅略優於單向正向流,但在雙流網路融合後,雙向光流效能反而不如單向正向流。
六、多工學習
由於ucf-101和hmdb-51資料集大小比較小,通過多工學習的方法組合兩個資料集,增強訓練結果。經過評估,多工學習表現效能更佳。
2、在空間網訓練中,從選定的幀中隨機裁剪224×224子影象,然後進行隨機水平翻轉和rgb抖動。(子影象數從整個幀取樣,而不是幀中心)
3、在時間網路訓練中,我們計算所選訓練幀的光流卷中取樣的224×224輸入,並隨機裁剪和翻轉。
4、學習率最初設定為0.01,經過50k次迭代後,學習率變為0.001,經過70k次迭代後,學習率變為0.0001,經過80k次迭代後停止訓練。在微調場景中,經過14k次迭代後,該速率變為0.001,並且在20k次迭代後停止訓練。
卷積神經網路筆記
一 卷積神經網路基礎 cnn是一種空間上共享引數的神經網路,它通過正向和反向傳播,自己學習識別物體。它可能有幾層網路構成,第一層是抽象層次的最底層,cnn一般把中的較小的部分識別成簡單的形狀,下一層將會上公升到更高的抽象層次,一般會識別更複雜的概念,以此類推,直至識別整個物體。cnn的學習方式 層次...
卷積神經網路筆記
卷積神經網路依舊是乙個可導的評分函式,該函式輸入為原始影象畫素,輸出是不同類別的評分。並假設輸入資料是影象,基於該假設,向結構中新增一些特有性質。常規神經網路的輸入是乙個向量,對大尺寸影象效果不好,效率低下,大量引數導致網路過擬合。神經元的各層三維排列 寬度,高度和深度 深度是指啟用函式資料體的第3...
Layout網路閱讀筆記
一種僅通過單張透檢視或全景圖就能估算室內場景3d布局的深度卷積神經網路。能夠推廣到非長方體的曼哈頓布局中。被 cvpr 2018 接收。創新點 1.提出了根據 rgb 影象推斷出布局的演算法與layoutnet網路,它適用於曼哈頓布局的透檢視和全景圖。基於消失點對齊全景影象之後,利用深度網路直接 邊...