殊途同歸的演算法,本文將從數學,概率和資訊理論的角度來說明常見的幾種機器學習演算法都是等價的。一定程度上 最大熵模型(maximum entopy :maxent),邏輯回歸(logit regression),softmax 回歸,
對數線性模型, 廣義線性模型(指數模型), energy-based model, boltzmann distribution, conditional random field 等都是等價的(參見quora上jason eisner的回答) 。 對於乙個監督學習的分類問題,我們常常從概率模型切入。即設x是輸入空間的乙個隨機變數,y是輸出空間的隨機變數,通常\(y=\\), 其中k大於等於2。監督學習的目的是得到條件概率分布:
\[p(y|x)
\]對給定的輸入,**相應的輸出,並選取概率最大的那個類作為新輸入的類別。
在聊各種模型之前,先來看看熵和似然函式
從資訊理論的角度來看世界,一切都是由0和1組成的,我們稱乙個資訊所占用的二進位制位的單位為bit。如果乙個離散的隨機變數x有n種可能,那麼一般來講最多需要log n 個bit位來表示。
熵度量的是某個事件的不確定性程度,大部分事件在最初的時候都是不確定的,比如明天的天氣、某場比賽的結果,彩票的中獎號碼等等。這都是乙個乙個的黑盒子,而熵度量的就是需要用多少bit來表示這種不確定性大小。在二進位制世界,n個bit位可以表示\(2^n\)種可能,bit位數越大,說明不確定性程度越大,我們舉乙個找砝碼的例子:
假設有8個砝碼,其中有乙個砝碼的重量跟其他的不一樣。問,如果給你一台天平,那麼需要稱幾次才能確定這個砝碼。其實如果不問具體的測量過程,那這種問題超級好解,即我們只需要知道需要幾個bit位來度量這個黑盒子,而這裡有8個砝碼,即有8種可能。說明我們測量的結果必須表示出所有的可能。又我們知道每次稱重只有兩種可能,那麼顯然三次稱重就有了8種可能,即只需要三次。
定義:設x是乙個取有限個值的離散隨機變數,且其概率分布為:
\[p(x=x_i)=p_i, \quad, i=1,2,\ldots,n
\]則隨機變數x的熵定義為:
\[h(x)=-\sum_^ p_i \log p_i
\]從測度論角度,熵可以看成是$-\log x $的期望。 再來看似然函式,似然函式刻畫的是樣本與真實事件之間的吻合度。同樣考慮離散隨機變數x,假設我們有m組樣本(以拋硬幣為例),正正反反正正反......,又設拋硬幣出現正的概率為p,則該樣本出現的可能性為:
\[l(p)=pp(1-p)(1-p)pp(1-p)\cdots=p^} (1-p)^}
\]未完待續
C VSVB殊途同歸
例子1 求100以內的偶數和執行結果 region 第一種方法 int sum 0 for int i 0 i 100 i 2 console.writeline 總和為 sum console.readkey endregion region 第二種方法 int sum 0 for int i 0...
Builder與Factory,殊途同歸!
在設計模式的學習過程中,builder與factory是建立模式中兩個經典的教程,給與了我們很多值得汲取的寶貴設計思想,然而builder與factory模式也是初學者容易混淆的兩個模式,經常看到有人問及兩者的區別與適用的場景,我在近一段設計模式的學習過程中同樣碰到了這個問題,在兩種模式的區別與聯絡...
用友金蝶 道不同殊途同歸
不管是用友的客戶經營策略,還是金蝶的向服務轉型,這都是it業界標誌性企業的標誌性轉型。用友和金蝶的關係,就像是可口可樂與百事可樂,肯德基與麥當勞,因為這兩家軟體公司的主營業務相同,發展方向相近,規模 市場占有率和贏利能力也都在同一級別。因此也就有了 北用友 南金蝶 的說法。1988年王文京建立的用友...