資訊**的原因,部分是因為我們有網際網路作為資訊的載體,另一部分的原因是感測器,我們的感測器甚至比人還多。我們每個人都拿著一部智慧型手機,大街上跑的車也有行車記錄儀,所以感測器確實引起了視覺資訊的大爆發。
計算機視覺是乙個與很多領域密切關聯的學科,b站李飛飛231n 課程針對的是更專的領域,它的模型和應用範圍都更具針對性(對比231a課程),模型方面,我們只討論神經網路;應用範圍方面,我們基本只針對視覺識別。
五億四千萬年前,地球是一鍋非常平靜的水,有非常簡單的生物圈,而所謂的動物就只是漂在水裡,它們進食的方式就是張著嘴漂著,等著嘴邊的事物撞進來,然後張開嘴吞下去就好了,也沒有很多種類的生物。但是奇怪的事情發生了,從化石研究來看,物種數量突然地就爆發了,生物學家稱之為speciation(進化**/寒武紀生命大爆發)。突然間由於某種原因,生物開始變得多樣化,它們展現出非常複雜的形態,出現了肉食動物,獵食者們進化出各種各樣的工具來幫助自己生存。到底是什麼力量觸發了這一切?這是一樁懸案,可能是小行星撞地球、環境變遷之類的原因。乙個有說服力的理論,是andrew parker(澳大利亞現代地質學家)研究了很多化石後提出的:這一切都源於眼睛的出現。第乙個先驅進化出了非常簡陋的眼睛,也就和針孔相機差不多,只能捕捉到光線,感受到一點環境資訊。突然之間,生活不再那麼平淡,因為有了眼睛之後,第一件事就是可以去捕食食物,你現在知道食物在**了,你不再是水裡的瞎子了。而當你能去抓食物,你猜怎麼著?那些食物最好趕緊長出眼睛來,從你身邊跑掉,否則它們就掛了,所以第一只有眼睛的動物,它們簡直就像進了谷歌公司的自助餐廳,它擁有最美好的時光,什麼都隨便它吃。因為這些眼睛的出現,生物展開了「裝備競賽」,每種動物都得學著去弄出點什麼,掙扎求存。在這種突然的物種爆發中,,出現了捕食者和**食者。所以,這就是五億四千萬年前,視覺出現時的情景,視力不僅僅是「出現」而已,實際上它是進化大爆發的主要驅動力。
視覺領域另一項非常重要的突破,在工程技術方面,發生在文藝復興時期,由達文西這個傳奇人物發明。在文藝復興之前,全球各地的文明,從亞洲到歐洲、美洲、非洲,我們曾經見識過照相機的模型,亞里斯多德曾經用樹葉製作相機的過程,中國先賢墨子曾經用帶小孔的盒子製作過相機。但如果你去了解第乙份描述現代照相機原理的資料,你會找到「照相暗盒」,是由達文西描述的,那麼這就是現代視覺工程技術的開端了,我們開始想要「複製這個世界」,我們希望能為看到的世界留下乙份視覺拷貝,不過這並沒有涉及到試圖去理解看到的資訊,這時候我們只是在複製我們看到的資訊。
生物的大腦如何處理視覺資訊的?(並非工程技術領域而是科學領域知識~)我們現在知道了,我們用了5.4億年進化出了如今非常神奇的視覺系統,那麼這5.4億年到底進化了什麼,從三葉蟲的眼睛到人類的眼睛,到底經歷了什麼樣的變遷,我們到底用著什麼樣的架構?哈佛進行了一項重要的研究,他們找來乙隻清醒的但是被麻醉了的貓,並製作一根電極探針,開啟了貓的頭骨,將這根針插入貓的大腦內的基礎視覺皮質層中,這部分神經元處理著和視覺相關的大量工作,但是此前我們並不知道基礎視覺皮質層到底做著什麼樣的工作,我們只知道它負責在眼睛看到東西後,整個視覺處理流程的前期部分,有難以計數的神經元參與這個流程,我們應該搞清楚它到底是怎樣運作的。所以他們把電極插入了貓的基礎視覺皮質層中,實驗發現了乙個有趣的現象,基礎視覺皮質層—視覺處理流程第一站(或者第二,這取決於你要不要把眼睛算進去)是在後腦勺的位置上,而不是緊挨著眼睛。這個非常有意思,因為你的嗅覺處理部分是緊挨著鼻子的,聽覺處理部分是緊挨著耳朵的,然而基礎視覺皮質層卻在離眼睛最遠的位置。另乙個有趣的實驗結果是,並不是只有基礎視覺皮質層這一塊參與了視覺處理流程,差不多有50%的大腦都參與著視覺處理過程,視覺是大腦中感知任務最重、最艱難的一項工作,不是說別的感官沒用,只是說自然進化用了如此長的時間,進化出我們的感知系統,視覺卻在其中佔據了如此多的資源。hubei和wiesel躊躇滿志,想要搞清楚基礎視覺皮質層到底在做什麼,因為這是我們深度學習神經網路的第一步知識。他們先把貓放到屋子裡,然後記錄神經元的活動(觀察貓看東西時,神經元是否被激發),比如說他們給貓看魚的,那麼,神經元會興奮起來(被啟用),傳送脈衝嗎?他們給貓看了魚的,耗子的,花的,結果全都沒用,貓的基礎視覺區一片沉寂,沒有任何脈衝。好的訊息是,那時候沒有計算機,所以他們想給貓看的話,得用幻燈片投影才行,所以他們放一張魚的幻燈片,等著神經元的脈衝,如果沒有,就換下一張幻燈片。結果他們發現,每次換幻燈片時,神經元被啟用了。這表明了更換幻燈片的動作生成了乙個「邊緣」,可能是矩形或圓形之類的,這個移動的邊緣啟用了這些神經元,科學家立刻捕捉了這一資訊,經過深入研究,最終發現,基礎視覺區的神經元是按一列一列組織起來的,每一列神經元只「喜歡」某一特定形狀/某種簡單的線條組合,而不是魚/老鼠。
總的來說,有很多基礎視覺區的神經元,我們不知道它們喜歡什麼。hubei和wiesel發現,視覺的前期,並不是對整體的魚/老鼠進行處理,視覺處理流程的第一步,是對簡單的形狀結構處理—邊緣。這對認知科學、神經科學、工程模型都產生了極為深遠的影響。如果以後我們實現一些深度神經網路,我們會看到簡單的邊緣結構出現在我們的模型中。
視覺SLAM研究點介紹
在 slam for dummy 中,有一句話說的好 slam並不是一種演算法,而是乙個概念。slam is more like a concept than a single algorithm.所以,你可以和導師 師兄弟 以及師妹,如果有的話 說你在研究slam,但是,作為同行,我可能更關心 你...
視覺SLAM 二 研究點介紹
在 slam for dummy 中,有一句話說的好 slam並不是一種演算法,而是乙個概念。slam is more like a concept than a single algorithm.所以,你可以和導師 師兄弟 以及師妹,如果有的話 說你在研究slam,但是,作為同行,我可能更關心 你...
視覺SLAM漫談 三 研究點介紹
在 slam for dummy 中,有一句話說的好 slam並不是一種演算法,而是乙個概念。slam is more like a concept than a single algorithm.所以,你可以和導師 師兄弟 以及師妹,如果有的話 說你在研究slam,但是,作為同行,我可能更關心 你...