什麼是學習?
說到「深度學習」,追根溯源,我們需要先知道什麼是「學習」。
著名學者赫伯特 ·西蒙教授( herbert simon, 1975 年圖靈獎獲得者、 1978 年諾貝爾經濟學 獎獲得者)曾對「學習」下過乙個定義:「如果乙個系統,能夠通過執行某個過程,就此改進了它的效能,那麼這個過程就是學習」。
大師果然名不虛傳,永遠都是那麼言簡意賊一針見血。 從西蒙教授的觀點可以看出,學 習的核心目的就是改善效能。
其實對於人而言,這個定義也是適用的。 比如,我們現在正在學習深度學習的知識,其本質目的就是為了提公升自己在機器學習上的認知水平。 如果我們僅僅是低層次的重複性學習,而 沒有達到認知公升級的目的,那麼即使表面看起來非常勤奮,其實也僅僅是乙個「偽學習者」,因 為我們沒有改善效能。
按照這個解釋,那句著名的口號「好好學習,天天向上」,就會煥發新的含義:如果沒有性 能上的「向上」,即使非常辛苦地 「好好」, 即使長時間地 「天天「,都無法算作學習。
什麼是機器學習?
遵循西蒙教授的觀點,對於計算機系統而言,通過運用資料及某種特定的方法(比如統計的方法或推理的方法),來提公升機器系統的效能,就是機器學習。
英雄所見略同。卡內基梅隆大學的tom mitchell教授,在他的名作《機器學習》一書中,也給出了更為具體(其實也很抽象)的定義:
對於某類任務(task,簡稱t)和某項效能評價準則(performance,簡稱p),如果乙個電腦程式在t上,以p作為效能的度量,隨著很多經驗(experience,簡稱e)不斷自我完善,那麼我們稱這個電腦程式在從經驗e中學習了。
比如說,對於學習圍棋的程式alphago,它可以通過和自己下棋獲取經驗,那麼它的任務t就是「參與圍棋對弈」;它的效能p就是用「贏得比賽的百分比」來度量。「類似地,學生的任務t就是「上課看書寫作業」;它的效能p就是用「期末成績」來度量」
統計機器學習,就是從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,最後又回到資料的分析與**當中去。
在深度學習中,經常有「end-to-end(端到端)」學習的提法,與之相對應的傳統機器學習是「divide and conquer(分而治之)」。這些都是什麼意思呢?
「end-to-end」(端到端):說的是,輸入的是原始資料(始端),然後輸出的直接就是最終目標(末端),中間過程不可知,因此也難以知。
就此,有人批評深度學習就是乙個黑箱(black box)系統,其效能很好,卻不知道為何而好,也就是說,缺乏解釋性。其實,這是由於深度學習所處的知識象限決定的。從圖可以看出,深度學習,在本質上,屬於可統計不可推理的範疇。「可統計」是很容易理解的,就是說,對於同類資料,它具有一定的統計規律,這是一切統計學習的基本假設。那「不可推理」又是什麼概念?其實就是「剪不斷、理還亂」的非線性狀態了。
在哲學上講,這種非線性狀態,是具備了整體性的「複雜系統」,屬於複雜性科學範疇。複雜性科學認為,構成複雜系統的各個要素,自成體系,但阡陌縱橫,其內部結構難以分割。簡單來說,對於複雜系統,1+1≠2,也就是說,乙個簡單系統,加上另外乙個簡單系統,其效果絕不是兩個系統的簡單累加效應,而可能是大於部分之和。因此,我們必須從整體上認識這樣的複雜系統。於是,在認知上,就有了從乙個系統或狀態(end)直接整體變遷到另外乙個系統或狀態(end)的形態。這就是深度學習背後的方**。
與之對應的是「divide and conquer(分而治之)」,其理念正好相反,在哲學它屬於「還原主義(reductionism,或稱還原論)」。在這種方**中,有一種「追本溯源」的蘊意包含其內,即乙個系統(或理論)無論多複雜,都可以分解、分解、再分解,直到能夠還原到邏輯原點。
在意象上,還原主義就是「1+1=2」,也就是說,乙個複雜的系統,都可以由簡單的系統簡單疊加而成(可以理解為線性系統),如果各個簡單系統的問題解決了,那麼整體的問題也就得以解決。比如說,很多的經典力學問題,不論形式有多複雜,通過不斷的分解和還原,最後都可以通過牛頓的三大定律得以解決。
經典機器學習(位於第ⅱ象限),在哲學上,在某種程度上,就可歸屬於還原主義。傳統的機器學習方式,通常是用人類的先驗知識,把原始資料預處理成各種特徵(feature),然後對特徵進行分類。
然而,這種分類的效果,高度取決於特徵選取的好壞。傳統的機器學習專家們,把大部分時間都花在如何尋找更加合適的特徵上。因此,早期的機器學習專家們非常苦逼,故此,傳統的機器學習,其實可以有個更合適的稱呼——特徵工程(feature engineering)。
但這種苦逼,也是有好處的。這是因為,這些特徵是由人找出來的,自然也就為人所能理解,效能好壞,機器學習專家們可以「冷暖自知」,靈活調整。
什麼是深度學習?
再後來,機器學習的專家們發現,可以讓神經網路自己學習如何抓取資料的特徵,這種學習的方式,效果更佳。於是興起了特徵表示學習(feature representation learning)的風潮。這種學習方式,對資料的擬合也更加的靈活好用。於是,人們終於從自尋「特徵」的苦逼生活中解脫出來。
但這種解脫也付出了代價,那就是機器自己學習出來的特徵,它們存在於機器空間,完全超越了人類理解的範疇,對人而言,這就是乙個黑盒世界。為了讓神經網路的學習效能,表現得更好一些,人們只能依據經驗,不斷地嘗試性地進行大量重複的網路引數調整,同樣是「苦不堪言」。於是,「人工智慧」領域就有這樣的調侃:「有多少人工,就有多少智慧型」。
因此,你可以看到,在這個世界上,存在著乙個「麻煩守恆定律」:麻煩不會減少,只會轉移。
再後來,網路進一步加深,出現了多層次的「表示學習」,它把學習的效能提公升到另乙個高度。這種學習的層次多了,其實也就是套路「深了」。於是,人們就給它取了個特別的名稱——deep learning(深度學習)。
深度學習的學習物件同樣是資料。與傳統機器學習所不同的是,它需要大量的資料,也就是「大資料(big data)」。
有乙個觀點,在工業界一度很流行,那就是在大資料條件下,簡單的學習模型會比複雜模型更加有效。而簡單的模型,最後會趨向於無模型,也就是無理論。
例如,早在2023年,美國 《連線》(wired)雜誌主編克里斯﹒安德森(chris anderson)就曾發出「理論的終結(the end of theory)」的驚人斷言:「海量資料已經讓科學方法成為過去時(the data deluge makes the scientific method obsolete)」。
「戀愛」中的深度學習
法國科技哲學家伯納德﹒斯蒂格勒(bernard stiegler)認為,人們以自己的技術和各種物化的工具,作為自己「額外」的器官,不斷的成就自己。按照這個觀點,其實,在很多場景下,計算機都是人類思維的一種物化形式。換句話說,計算機的思維(比如說各種電子演算法),都能找到人類生活實踐的影子。
比如說,現在火熱的深度學習,與人們的戀愛過程也有相通之處。在知乎上,就有人(jacky yang)以戀愛為例來說明深度學習的思想,倒也非常傳神。我們知道,男女戀愛大致可分為三個階段:
第一階段初戀期,相當於深度學習的輸入層。妹子吸引你,肯定是有很多因素,比如說臉蛋、身高、身材、性格、學歷等等,這些都是輸入層的引數。對不同喜好的人,他們對輸出結果的期望是不同的,自然他們對這些引數設定的權重也是不一樣的。比如,有些人是奔著結婚去的,那麼他們對妹子的性格可能給予更高的權重。否則,臉蛋的權重可能會更高。
第二階段熱戀期,對應於深度學習的隱藏層。在這個期間,戀愛雙方都要經歷各種歷練和磨合。清朝湖南湘潭人張燦寫了一首七絕:
書畫琴棋詩酒花,當年件件不離他。這首詩說的就是,在過日子的洗禮中,各種生活瑣事的變遷。戀愛是過日子的一部分,其實也是如此,也需要雙方不斷磨合。這種磨合中的權重取捨平衡,就相等於深度學習中隱藏層的引數調整,它們需要不斷地訓練和修正!戀愛雙方相處,磨合是非常重要的。要怎麼磨合呢?光說「520(我愛你)」,是廉價的。這就給我們程式猿(媛)提個醒,愛她(他),就要多陪陪她(他)。陪陪她(他),就增加了引數調整的機會。引數調整得好,輸出的結果才能是你想要的。而今七事都更變,柴公尺油鹽醬醋茶。
第三階段穩定期,自然相當於深度學習的輸出層。輸出結果是否合適,是否達到預期,高度取決於「隱藏層」的引數 「磨合」得怎麼樣。
什麼是深度學習?
讓我們先從深度學習的定義入手,然後順便理一下深度學習 機器學習以及ai之間的一些聯絡 深度學習是指多層的人工神經網路 和訓練它的方法。一層神經網路 會把大量矩陣數字作為輸入,通過非線性啟用方法取權重,再產生另乙個資料 三者聯絡如下 機器學習 抵達ai目標的一條路徑 深度學習是機器學習 研究中的乙個新...
深度學習筆記(一)什麼是深度學習
從簡單的經驗中獲取知識,不需要人類去設計 規範知識,因為層次化的簡單概念可以讓計算機去學習,從而形成複雜的概念,如果用一張圖來表示就是一層一層,所以叫深度學習。ibm深藍 1997年 知識基礎 knowledge base 用公式來表述現實世界,現在還沒有成功案例。機器學習 machine lear...
深度學習 什麼是marginalization
中經常看到這樣的描述 谷歌翻譯顯示這個詞的意思是 邊緣化 那麼在數學中,邊緣化到底代表什麼操作呢?首先,邊緣化是概率論中的乙個概念,它要求對乙個變數的可能值求和,以確定另乙個變數的邊緣貢獻。這個定義可能聽起來有點抽象,讓我們用乙個例子來說明這一點。假設我們對天氣如何影響英國人的幸福這一話題感興趣。我...