機器學習 資訊熵 資訊增益的概念

2022-09-18 19:42:12 字數 2463 閱讀 4939

資訊熵表示 隨機變數 的不確定性

不確定性越大(即所謂的資訊量越大),資訊熵越大。

首先從直覺上來講,是可以的。不然我們怎麼覺得有的人廢話特別多,卻沒什麼資訊量;而有的人一語中的,一句話就傳達了很大的資訊量。

有些事情本來不是很確定:例如 明天**是漲是跌;

1)「明天nba決賽開始了「,和「**跌漲「沒關係,所以「明天nba決賽開始了「對「**跌漲「帶來的資訊量很小。

2)但是 「明天nba決賽開始了「,「大家都不關注**了,沒人坐莊有99%的股都會**「,這句話對「對票跌漲「帶來的資訊量很大。因為它使本來不確定的事情變得十分確定

而有些事情本來就很確定:例如每天太陽從東方公升起;

你再告訴我一百遍,這句話還是沒有資訊量的。

因為這件事情不能更確定了

所以說資訊量的大小跟事情的不確定性有關。

1. 跟事情的可能結果的數量有關

例如我們討論太陽從哪公升起。本來就只有乙個結果,我們早就知道,那麼無論誰傳遞任何資訊都是沒有資訊量的。

當可能結果數量比較大時,我們得到的新資訊才有潛力擁有大資訊量。

2. 跟概率有關。

單看可能結果數量不夠,還要看初始的概率分布。例如一開始我就知道小明在電影院的有15*15個座位的a廳看電影。小明可以坐的位置有225個,可能結果數量算多了。可是假如我們一開始就知道小明坐在第一排的最左邊的可能是99%,坐其它位置的可能性微乎其微,那麼在大多數情況下,你再告訴我小明的什麼資訊也沒有多大用,因為我們幾乎確定小明坐第一排的最左邊了。

那麼,怎麼衡量不確定性的變化的大小呢?怎麼定義呢?

這個問題不好回答,但是假設我們已經知道這個量已經存在了,不妨就叫做資訊量

一,起碼 不是個負數 吧

不然說句話還偷走資訊呢~

二,起碼 資訊量 和 資訊量 之間可以 相加 吧!

假如你告訴我的第一句話的資訊量是3,在第一句話的基礎上又告訴我一句話,額外資訊量是4,那麼兩句話資訊量加起來應該等於7吧!難道還能是5是9?

三,資訊量是連續依賴於概率

剛剛已經提過,資訊量跟概率有關係,但我們應該會覺得,資訊量是連續依賴於概率的吧!

就是說,某乙個概率變化了0.0000001,那麼這個資訊量不應該變化很大。

四,新資訊有更大的潛力具有更大的資訊量

剛剛也提過,資訊量大小跟可能結果數量有關。假如每乙個可能的結果出現的概率一樣,那麼對於可能結果數量多的那個事件,新資訊有更大的潛力具有更大的資訊量,因為初始狀態下不確定性更大。

負的對數函式,也就是-log(x)!

底數取大於1的數保證這個函式是非負的就行。前面再隨便乘個正常數也行。

a. 為什麼不是正的?因為假如是正的,由於x是小於等於1的數,log(x)就小於等於0了。第乙個特點滿足。

b. 咱們再來驗證一下其他特點。三是最容易的。假如x是乙個概率,那麼log(x)是連續依賴於x的。done

c。四呢?假如有n個可能結果,那麼出現任意乙個的概率是1/n,而-log(1/n)是n的增函式,沒問題。

d。最後驗證二。由於-log(xy) = -log(x) -log(y),所以也是對的。學數學的同學注意,這裡的y可以是給定x的條件概率,當然也可以獨立於x。

by the way,這個函式是唯一的(除了還可以多乘上任意乙個常數),有時間可以自己證明一下,或者查書。

ok,所以我們知道乙個事件的資訊量就是這個事件發生的概率的負對數。

最後終於能回到資訊熵。資訊熵是跟所有可能性有關係的。每個可能事件的發生都有個概率。資訊熵就是平均而言發生乙個事件我們得到的資訊量大小。所以數學上,資訊熵其實是資訊量的期望。(表示式參考其它答案或者看下面)

至於為什麼用「熵」這個怪字?大概是當時翻譯的人覺得這個量跟熱力學的熵有關係,所以就用了這個字,君不見字裡頭的火字旁?

而熱力學為什麼用這個字?這個真心不知道。。。

熵:表示隨機變數的不確定性。

條件熵:在乙個條件下,隨機變數的不確定性。

資訊增益:熵 - 條件熵

在乙個條件下,資訊不確定性減少的程度!

通俗地講,x(明天下雨)是乙個隨機變數,x的熵可以算出來, y(明天陰天)也是隨機變數,在陰天情況下下雨的資訊熵我們如果也知道的話(此處需要知道其聯合概率分布或是通過資料估計)即是條件熵。

兩者相減就是資訊增益!原來明天下雨例如資訊熵是2,條件熵是0.01(因為如果是陰天就下雨的概率很大,資訊就少了),這樣相減後為1.99,在獲得陰天這個資訊後,下雨資訊不確定性減少了1.99!是很多的!所以資訊增益大!也就是說,陰天這個資訊對下雨來說是很重要的!

所以在特徵選擇的時候常常用資訊增益,如果ig(資訊增益大)的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的!

感謝知乎的朋友[滴水]、[kay zhou]

參考鏈結

最大資訊熵增益 資訊熵與資訊增益

1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...

最大資訊熵增益 資訊熵與資訊增益

前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...

熵 資訊增益 資訊增益率

介紹資訊增益之前,首先需要介紹一下熵的概念,這是乙個物理學概念,表示 乙個系統的混亂程度 系統的不確定性越高,熵就越大。假設集合中的變數x 它對應在集合的概率分別是p 那麼這個集合的熵表示為 舉乙個的例子 對遊戲活躍使用者進行分層,分為高活躍 中活躍 低活躍,遊戲a按照這個方式劃分,使用者比例分別為...