從零開始深度學習0518 BOW詞包模型基本知識

2021-10-07 05:32:00 字數 1748 閱讀 3773

視覺單詞 可以 理解為就是 local feature

什麼是local feature 呢

包含兩個資訊:

座標位置(x,y)

描述符(描述運算元 descriptor)  這個描述符是用來可以被量化比對的 做match

計算機視覺中 最重要的local feature  就是sift :scale invariant feature transform

sift 是一種非常典型的 著名的local feature

同樣包含剛剛說的兩個資訊:

座標位置          detector  檢測器

特徵描述運算元   descriptor  用來描述特徵向量

sift 不是機器學習學出來的  是科學及根據統計學數學 等等規定出來的,給定乙個就可以去算它的local feature 資訊

所以使用opencv 一行api就可以搞定

會輸出如上兩個資訊

假如影象計算出了100個點,

那麼它的座標位置的資訊 就會是100*2 的矩陣 100表示點的數量 2表示x和y兩個元素

如果是128維的特徵向量來描述特徵運算元  所以還會有 100*128的矩陣 每一行是乙個descriptor描述符描述運算元  用來對應表示前面每一行的(x,y)的feature

越高畫質的 檢測出的點越多

左邊的衣服不太可能去匹配到右邊的腦門

從幾何上來說 大多數線都是平移過來,但是有個別線是斜著的 違背了大方向 是明顯錯誤的 所以把它去掉   這種基於幾何校驗的方式 非常有名 叫做隨機一致性取樣 ransac

視覺單詞模型的基本結構

step1:feature extraction  特徵提取  會得到兩個資訊  位置 和 描述運算元特徵向量

step2:codebook construction 構造詞典  其實就是做了聚類,然後取聚類中心構造詞典,既可以降維又可以表徵特徵

假設這是一張圖,每個黑色的叉叉是keypoint 或者說  local feature

紅色的圓圈是聚類出來的中心

可以看到,黃色的區域,有4個特徵點,(截圖少乙個),y5 是這個區域的聚類中心,都用y5作為特徵表達,所以在直方圖統計中 對y5的橫座標就會加上4的分量

整個流程就是

從零開始搭建深度學習環境

開始深度學習調參之路不能沒有乙個趁手的環境 安裝基礎環境 我使用的機器環境是 ubuntu18.04 安裝顯示卡驅動 1.2.按照cuda所需的版本安裝 3.sudo ubuntu drivers autoinstall 安裝pip sudo apt get install python pip 安...

從零開始的深度學習 4

在之前的練習中,解碼器在各個時間步依賴相同的背景變數 context vector 來獲取輸入的序列資訊。當編碼器為迴圈神經網路時,背景變數來自它最終時間步的隱藏狀態。將源序列輸入資訊以迴圈單位狀態編碼,然後將其傳遞給解碼器以生成目標序列。然而這種結構存在著問題,尤其是rnn機制實際中存在長程梯度消...

從零開始學習react

react.createlement tag,content class shoppinglist extends react.component return 我們可以把兩者結合起來,使 react 的 state 成為 唯一資料來源 渲染表單的 react 元件還控制著使用者輸入過程中表單發生的...