1、資訊熵
資訊理論中的資訊量和資訊熵。
資訊量:
資訊量是對資訊的度量,就跟溫度的度量是攝氏度一樣,資訊的大小跟隨機事件的概率有關。
例如: 在哈爾濱的冬天,一條訊息說:哈爾濱明天溫度30攝氏度,這個事件肯定會引起轟動,因為它發生的概率很小(資訊量大)。日過是夏天,「明天溫度30攝氏度」可能沒有人覺得是乙個新聞,因為夏天溫度30攝氏度太正常了,概率太大了(資訊點太小了)
從這個例子中可以看出 乙個隨機事件的資訊量的大小與其發生概率是成反相關的。
夏農定義的乙個事件的資訊資訊量為:i(x) = log2(1/p) 其中p為事件x發生的概率
資訊熵:entropy
乙個隨機變數 x 可以代表n個隨機事件,對應的隨機變為x=xi,
那麼熵的定義就是 x的加權資訊量。
h(x) = p(x1)i(x1)+...+p(xn)i(x1)
= p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn))
= -p(x1)log2(p(x1)) - ........-p(xn)log2(p(xn))
其中p(xi)代表xi發生的概率
例如有32個足球隊比賽,每乙個隊的實力相當,那麼每乙個對勝出的概率都是1/32
那麼 要猜對哪個足球隊勝出 非常困難,
這個時候的熵h(x) = 32 * (1/32)log(1/(1/32)) = 5
熵也可以作為乙個系統的混亂程度的標準
試想如果32個隊中有乙個是ac公尺蘭,另外31個對是北郵計算機1班隊,2班,...31班
那麼幾乎只有乙個可能 ac公尺蘭勝利的概率是100%,其他的都是0%,這個系統的熵
就是 1*log(1/1) = 0.
這個系統其實是有序的,熵很小,而前面熵為5 系統處於無序狀態。
2、基尼不純度
基尼不純度的大概意思是 乙個隨機事件變成它的對立事件的概率
例如 乙個隨機事件x ,p(x=0) = 0.5 ,p(x=1)=0.5
那麼基尼不純度就為 p(x=0)*(1 - p(x=0)) +
p(x=1)*(1 - p(x=1)) = 0.5
乙個隨機事件y ,p(y=0) = 0.1 ,p(y=1)=0.9
那麼基尼不純度就為p(y=0)*(1 - p(y=0)) +
p(y=1)*(1 - p(y=1)) = 0.18
很明顯 x比y更混亂,因為兩個都為0.5 很難判斷哪個發生。而y就確定得多,y=0發生的概率很大。而基尼不純度也就越小。
所以基尼不純度也可以作為 衡量系統混亂程度的 標準
決策樹與熵 Gini不純度計算
要使用決策樹,就必須計算不純度,計算公式有熵和基尼不純度 熵和基尼不純度計算公式為 img 舉個例子,假設有樣本 table a1 a2 b1 2 8 b2 6 4 table 則開始的時候,熵值為 e 0.1 log2 0.1 0.4 log2 0.4 0.3 log2 0.3 0.2 log2 ...
資訊熵與資訊熵增益
資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...
最大資訊熵增益 資訊熵與資訊增益
1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...