本文引自西北工業大學楊巨集暉老師的《模式識別之特徵選擇》
對乙個特徵而言,系統有它和沒有它時資訊量將發生變化,而前後資訊量的差值就是這個特徵給系統帶來的資訊量,即增益。衡量標準是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。
識別系統中,特徵的資訊增益就是乙個特徵與類別的互資訊
資訊增益準則可以計算特徵和類別之間的相關度,但僅根據「最大相關性」可能存在冗餘特徵,因而加入「最小冗餘性」條件以便選擇互斥的特徵,因為當兩個特徵高度依賴時,去除其中的乙個特徵對系統的分類能力影響不大,而且去除冗餘特徵可以減少學習演算法的計算量,加快識別系統處理時間。因此在資訊增益的基礎上減去加權的冗餘度(其中權值根據資料集中冗餘特徵的程度進行設定),得到特徵評價函式。
從上述內容可以看到,互資訊對特徵提供了多角度的評價函式。在特徵選擇中,我們不僅要找到對分類貢獻最大的特徵,同時希望找到那些可以為這些特徵提供補充資訊的特徵,並刪除冗餘特徵。下式提出了將特徵與類別的互資訊與最大條件混資訊混的特徵評價準則。這個準則的應用是:利用特徵與類別的互資訊評價出最優特徵,再以此特徵為條件,找出和它互補幷包含最多分類資訊的特徵,並刪除冗餘特徵。
1 互資訊 資訊熵 條件互資訊 相關
參考於 資訊量可以被看成在學習 x 的值的時候的 驚訝程度 如果有人告訴我們乙個相當不可能的時間發生了,我們收到的資訊要多於我們被告知某個很可能發生的事件發生時收到的資訊。如果我們知道某件事情一定會發生,那麼我們就不會接收到資訊。於是,我們對於資訊內容的度量將依賴於概率分布p x 因此我們想要尋找乙...
點互資訊(PMI)和正點互資訊(PPMI)
如下 在概率論中,如果x和y無關,p x,y p x p y 如果x和y越相關,p x,y 和p x p y 的比就越大。從後兩個條件概率可能更好解釋,在y出現的條件下x出現的概率除以單看x出現的概率,這個值越大表示x和y越相關。log來自於資訊理論的理論,而且 log 1 0 也恰恰表明p x,y...
熵和互資訊
讀文獻想要算通道容量的時候,遇到了需要用到熵和互資訊相關的推導,所以找紀佬要來資訊理論的課件拿來看了看,在這裡也是乙個記錄。先搬上來兩個定義。熵的定義 互資訊量的定義 好的,掌握到這裡基本上就ok了,但是在資訊理論研究中我們還是要經常用一點條件互資訊的東西,那麼可以用這個venn圖來看。圖轉侵刪 這...