本章主要討論下特徵生成中的 資訊增益方法
在資訊增益中,重要性的衡量標準就是看特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。
因此先回憶一下資訊理論中有關資訊量(就是「熵」)的定義。說有這麼乙個變數x,它可能的取值有n多種,分別是x1,x2,……,xn,每一種取到的概率分別是p1,p2,……,pn,那麼x的熵就定義為:
意思就是乙個變數可能的變化越多(反而跟變數具體的取值沒有任何關係,只和值的種類多少以及發生概率有關),它攜帶的資訊量就越大(因此我一直覺得我們的政策法規資訊量非常大,因為它變化很多,基本朝令夕改,笑)。
對分類系統來說,類別c是變數,它可能的取值是c1,c2,……,cn,而每乙個類別出現的概率是p(c1),p(c2),……,p(cn),因此n就是類別的總數。此時分類系統的熵就可以表示為:
有同學說不好理解呀,這樣想就好了,文字分類系統的作用就是輸出乙個表示文字屬於哪個類別的值,而這個值可能是c1,c2,……,cn,因此這個值所攜帶的資訊量就是上式中的這麼多。
資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊量。
問題是當系統不包含t時,資訊量如何計算?我們換個角度想問題,把系統要做的事情想象成這樣:說教室裡有很多座位,學生們每次上課進來的時候可以隨便坐,因而變化是很大的(無數種可能的座次情況);但是現在有乙個座位,看黑板很清楚,聽老師講也很清楚,於是校長的小舅子的姐姐的女兒託關係(真輾轉啊),把這個座位定下來了,每次只能給她坐,別人不行,此時情況怎樣?對於座次的可能情況來說,我們很容易看出以下兩種情況是等價的:(1)教室裡沒有這個座位;(2)教室裡雖然有這個座位,但其他人不能坐(因為反正它也不能參與到變化中來,它是不變的)。
對應到我們的系統中,就是下面的等價:(1)系統不包含特徵t;(2)系統雖然包含特徵t,但是t已經固定了,不能變化。
我們計算分類系統不包含特徵t的時候,就使用情況(2)來代替,就是計算當乙個特徵t不能變化時,系統的資訊量是多少。這個資訊量其實也有專門的名稱,就叫做「條件熵」,條件嘛,自然就是指「t已經固定「這個條件。
但是問題接踵而至,例如乙個特徵x,它可能的取值有n多種(x1,x2,……,xn),當計算條件熵而需要把它固定的時候,要把它固定在哪乙個值上呢?答案是每一種可能都要固定一下,計算n個值,然後取均值才是條件熵。而取均值也不是簡單的加一加然後除以n,而是要用每個值出現的概率來算平均(簡單理解,就是乙個值出現的可能性比較大,固定在它上面時算出來的資訊量佔的比重就要多一些)。
因此有這樣兩個條件熵的表示式:
這是指特徵x被固定為值xi時的條件熵,
這是指特徵x被固定時的條件熵,注意與上式在意義上的區別。從剛才計算均值的討論可以看出來,第二個式子與第乙個式子的關係就是:
因此固定t時系統的條件熵就有了,為了區別t出現時的符號與特徵t本身的符號,我們用t代表特徵,而用t代表t出現,那麼:
與剛才的式子對照一下,含義很清楚對吧,p(t)就是t出現的概率,
另一半就可以展開為:
因此特徵t給系統帶來的資訊增益就可以寫成系統原本的熵與固定特徵t後的條件熵之差:
公式中的東西看上去很多,其實也都很好計算。比如p(ci),表示類別ci出現的概率,其實只要用1除以類別總數就得到了(這是說你平等的看待每個類別而忽略它們的大小時這樣算,如果考慮了大小就要把大小的影響加進去)。再比如p(t),就是特徵t出現的概率,只要用出現過t的文件數除以總文件數就可以了,再比如p(ci|t)表示出現t的時候,類別ci出現的概率,只要用出現了t並且屬於類別ci的文件數除以出現了t的文件數就可以了。
從以上討論中可以看出,資訊增益也是考慮了特徵出現和不出現兩種情況,與開方檢驗一樣,是比較全面的,因而效果不錯。但資訊增益最大的問題還在於它只能考察特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂「全域性」的特徵選擇(指所有的類都使用相同的特徵集合),而無法做「本地」的特徵選擇(每個類別有自己的特徵集合,因為有的詞,對這個類別很有區分度,對另乙個類別則無足輕重)
特徵選擇方法之資訊增益
前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...
特徵選擇之資訊增益
在文字分類中利用資訊增益進行特徵提取 資訊增益體現了特徵的重要性,資訊增益越大說明特徵越重要 假設資料中有k類 每類出現的概率是 各類的資訊熵計算公式 對某個詞彙word需要計算word在所有類別 現的概率 就是 出現word的檔案數 除以總檔案數 word不出現的概率 就是沒有出現word的檔案數...
文字分類特徵選擇方法之資訊增益
前文提到過,除了開方檢驗 chi 以外,資訊增益 ig,information gain 也是很有效的特徵選擇方法。但凡是特徵選擇,總是在將特徵的重要程度量化之後再進行選擇,而如何量化特徵的重要性,就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量化,關聯性越強,特徵得分越高...