機器學習的效能在很大程度上取決於是否選擇了適當的資料表示(或特徵)。實際上,機器學習演算法的大部分工作都集中在預處理管道和資料轉換的設計上,這些管道和轉換產生的資料表示最終決定著機器學習的有效性。
但是,當前機器學習演算法存在致命的弱點:無法從資料中提取和構建有判別力的原始資訊。特徵工程作為一項重要的工作,能夠利用人類的聰明才智和先驗知識來彌補這一弱點,但確是人力密集型的(labor-intensive)工作,限制了機器學習的易用性和應用範圍的過大。
為了降低機器學習演算法對特徵工程的依賴,更快地構建新的應用程式,必須採取措施向人工智慧時代邁進。這需要人工智慧技術能夠從根本上理解我們周圍的世界——學會識別和理清隱藏在資料中的內在解釋因子。
表示學習,即學習資料的表示,能夠使得我們更容易地提取有用的特徵資訊以支援分類器或**器的構建。在概率模型中,乙個好的表示通常是能夠捕捉輸入資料內在解釋因子的後驗分布。此外,乙個好的表示也可能是有監督**器的有用輸入。本文著重介紹基於深度學習的表示學習——由多個非線性變換組合而成的方法。其目標是產生更抽象的且更有意義的表示。
2023年,hinton等人在特徵學習和深度學習方面取得了突破,相關工作並在同一年繼續推進。2023年,bengio對其進行了廣泛的綜述和討論。
表示學習的核心思想是學習特徵的層次結構。即每次使用深度學習方法學習乙個新的變換,並構建乙個層,然後基於前面學習的變換繼續學習和構建新的層,最終得到特徵的層次結構。本質上,無監督特徵學習的每次迭代都增加深度神經網路的一層的權重。最後,可以組合這些層來初始化深度監督**器,如神經網路分類器或深層生成模型(如deep boltzmann)。
相關工作表明,特徵提取的分層疊加通常會產生更好的表示,例如,分類誤差、概率模型生成的樣本質量或特徵學習的不變性等方面。
根據特徵分層構建過程所採取方法的不同,表示學習主要包括貪心分層有監督預訓練和貪心分層無監督預訓練。通常,無監督預訓練的效果要比有監督預訓練的效果要好。
貪心的分層有監督預訓練主要包括以下幾種方式:
1)層堆疊:在訓練第乙個單隱藏層的mlp之後丟棄輸出層,將另乙個單隱藏層的mlp直接堆疊其後。儘管先前的研究結果表明,效能不如無監督的預訓練,但總比沒有預訓練的方式要好;
3)迭代式:在每個迭代步驟中對所有先前新增的層進行預訓練,這種判別變數比無監督的預訓練效果要好。
貪心分層無監督預訓練,即每次使用無監督特徵學習方法學習乙個新的變換構建乙個層,然後基於前面學習的變換繼續學習新的層,最終得到特徵的層次結構。本質上,無監督特徵學習的每次迭代都增加深度神經網路的一層的權重。最後,可以組合這些層來初始化深度監督**器,如神經網路分類器或深層生成模型(如deep boltzmann)。
在貪心分層無監督預訓練後,重新生成的深層特徵可以用作有監督機器學習**器(如支援向量機)的標準輸入,也可以用作深度監督神經網路的初始化(例如,通過在多層神經網路中增加邏輯回歸層或純監督層)。
雖然將單個層合併到乙個有監督的模型中是較為容易,但是如何將無監督預訓練的層組合起來構造更好的無監督模型就比較困難了。這裡介紹了一些基本方法,但是尚沒有出現明顯的優勢的方法,未來還需要很多任務作來驗證現有的想法。
無監督預訓練分層特徵構建方法:
1)將預訓練的受限玻爾茲曼機(restricted boltzmann machine, rbm)疊加到乙個深度信念網路(deep belief network,dbn)中,其中頂層被解釋為rbm,下層被解釋為有向的sigmoid信念網路。然而,如何近似最大似然訓練來進一步優化這一生成模型尚不清楚。一種選擇是喚醒睡眠演算法(wake-sleep algorithm),但還需要做更多的工作來評估該程式在改進生成模型方面的效率;
2)將rbm引數組合到深度玻爾茲曼機(deep boltzmann machine,dbm)中,基本上是將rbm權重減半以獲得dbm權重。然後,可以通過近似最大似然法對dbm進行訓練。這種聯合訓練帶來了實質性的改進,無論是在可能性方面,還是在分類效能方面,產生了深層特徵學習器;
3)將rbm或自動編碼機(auto-encoders)堆疊到深度自動編碼器中。若存在有一系列的編碼-解碼器對(f(·),g(·)),那麼整體編碼器就是單個編碼器的組合:fn(…f2 (f1(·)) ),而整體解碼器是它的「轉置」(通常也有轉置的權重矩陣):g1(g2(… gn(·)))。然後,深度自動編碼器(或其正則化版本)就可以通過聯合訓練得到,所有引數根據全域性重建誤差準則進行優化;
4)最近提出的另一種訓練深層架構的方法,是考慮迭代構造深層架構的自由能函式(free energy function)。自由能函式除隱藏層單元外,沒有其他顯式隱變數。這種自由能函式作為與低層相關的變換組成,接入高層的隱藏層單元。
首席安全官+是乙個聚焦「雲計算、大資料、人工智慧」等高技術領域,致力網路空間安全發展與戰略研究,發布網路安全創新理念、先進架構、前沿技術、產業趨勢和資本動態的平台,努力打造「有特色、高水平、國際化」的網路安全思想高地。
mysql的基本原理 Mysql 基本原理
mysql 基本原理 mysql是一種關聯式資料庫管理系統,關聯式資料庫將資料儲存在不同的表中,而不是將所有資料放在乙個大倉庫內,這樣就增加了速度並提高了靈活性 ysql是資料庫登入命令 uroot預設超級使用者登入 p 預設沒密碼 中寫密碼 mysqladmin uroot password 12...
pwm控制的基本原理 PWM控制的基本原理
pwm pulse width modulation 控制 脈衝寬度調製技術,通過對一系列脈衝的寬度進行調製,來等效地獲得所需要波形 含形狀和幅值 pwm控制技術在逆變電路中應用最廣,應用的逆變電路絕大部分是pwm型,pwm控制技術正是有賴於在逆 變電路中的應用,才確定了它在電力電子技術中的重要地位...
8 2 1 基本原理
乙個舞台動畫物件在包含許多舞台資訊 出現在何處,佔多大面積,處在什麼角度,是否可見 這些資訊分別儲存在動畫物件的屬性中。在 中讀取這些屬性可以了解物件的位置 大小 角度等狀態資訊 修改這些屬性可以改變物件的位置 大小 角度等狀態。如果從資料的角度去理解,動畫就是在固定時間間隔點不斷修改動畫物件某項屬...