缺點:
基於滑動視窗的區域選擇策略沒有針對性,時間複雜度高,視窗冗餘
手動設計特徵,不具有多樣性
需要大量已標記樣本,定位和分類通常針對於大型物件(資料共享),檢測需要額外資料
再用svm分類處理,線性回歸微調邊框,然後每個類需要單獨訓練邊框回歸器
問題:通過候選框 提取2000個左右候選框,需要cnn操作,計算量大,存在很多重複計算,而且需要分開單獨訓練
缺點: spp-net在微調網路時固定了卷積層,只對全連線層進行微調
問題: 候選框提取用的ss方法,時間太長
r-fcn 在faster r-cnn基礎上,共享卷積的層數更多了,提高速度。
缺點: 檢測物體準確率低
準確率和速度都高於faster r-cnn
提出an atterntion mechanism,也就是an automatically learned attention map,從而實現抑制背景干擾
inception模組 把多個不同尺寸的卷積結果串接(concat)起來。
原理:利用文字的畫素級別的binary mask
從卷積特徵中學習文字的空間區域資訊
將文字特徵封裝回卷積層,實現特徵增強
seglink模型
檢測word或者text 的兩部分(小文字塊segment 和 link ),然後結合它們。
乙個 segment 是乙個覆蓋乙個word一部分的有方向的box(對於多個詞組成的text line同樣適用)
乙個link 是連線一對segments,表明它們屬於同乙個word
這種方案方便於識別長度變化範圍很大的、帶方向的單詞和文字行,它不會象faster-rcnn等方案因為候選框長寬比例原因檢測不出長文字行。
同一層特徵圖、或者相鄰層特徵圖上的小文字塊都有可能被連線入同乙個單詞中。換句話說,位置鄰近、並且尺寸接近的文字塊都有可能被**到同一單詞中。
pixellink模型
直接從例項分割結果中提取文字框的位置,而不是從邊界框座標回歸中獲得
通過fcn網路,借助cnn執行兩個畫素級**:乙個文字二分類**,乙個鏈結二分類**,然後 用正鏈結去連線鄰居正文 本畫素,得到文字塊例項分割結果。
基於角點定位和區域分割的多方向場景文字檢測
定位文字邊界框的角點和分割文字區域的相對位置來檢測場景文字
textboxes模型
對ssd修改,增加default boxes,適應文字長度比較長,寬比較短的特性;增加了multi-scale的輸入
一步步學ROS
最近因為看svo的 裡面用到catkin決定要好好看ros,年前學會基本操作。啟動節點 rosrun package name executable name 檢視節點 rosnode list 注 rosout 節點是乙個特殊的節點,通過 roscore 自動啟動 檢視特定節點的資訊 rosnod...
windows Thrift c 一步步搭建
1.thrift 原始碼路徑 2.libevent原始碼路徑 3.boost路徑 安裝 conan install boost 1.68.0 conan stable 4.openssl路徑 安裝 conan install openssl 1.1.1a conan stable conan安裝bo...
一步步啟動linux
可以一步一步啟動linux.在ubantu剛一啟動時,按c健即進入grub 提示符狀態,在此狀態下輸入 我用的是ubuntu 13 grub linux vmlinuz grub ls boot grub initrd boot initrd.img 3.11.0 15 generic grub b...