資料的資訊屬性是與任務相關的.
對於分類任務, 標籤值\(y\)包含的資訊量為:
\[info(y) = - ln p(y)
\]其中, \(p(y)\)為\(y\)出現的概率. \(p(y)\)越小, \(y\)包含的資訊量越大. 這是符合直覺的.
熵定義為資訊的期望值.
乙個可以分為\(m\)類的資料集\(s\), 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值:
\[e(s) = -\sum_^m p(y_i)ln p(y_i)
\]資料集的資訊熵代表這個資料集的混亂程度. 熵越大, 越混亂.
若按照某種特定的方式, 例如按照某一屬性的值對\(s\)進行劃分, 得到\(n\)個子集. (模擬於形象的化學提純操作, 就是利用目標物的某種性質(如氣化溫度)).
新的子集們都有自己的資訊熵, 它們的熵的和與原\(s\)的熵的差值就是這個劃分操作帶來的資訊熵增益.
\[gain = e(s) - \sum_^n e(s_i)
\]
最大資訊熵增益 資訊熵與資訊增益
1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...
最大資訊熵增益 資訊熵與資訊增益
前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...
資訊熵與資訊增益
熵 被用來計算乙個系統中的失序現象 是衡量乙個系統混亂程度 無序性 的度量 規則排列的狀態 低熵 混亂的狀態 高熵 熱力學第二定律 物質世界的狀態總是自發地轉變為無序 由低熵變為高熵 如 氣體的擴散 乙個密封的箱子 中間放乙個隔板 在隔板左邊空間注入煙 抽走隔板 左邊的煙自然 自發 地向右擴散 最後...