基於熵的特徵提取
一、引言
最近一直在研究自然語言處理、文字分析相關的問題,看了不少**,資料分析是乙個非常有意思的東西,故準備寫一些博文來分享近來的一點心得。
研究的問題明確一下,通過前面7條資料來判斷最後一條資料的性別?
一眼掃過,直覺告訴我:
2、安裝美柚和網易彩票,貌似很有區分度,這兩個因子「資訊量」貌似很大。
資訊量大不大,能不能定量計算呢?請接著往下看,繫好安全帶,我們全速前進咯。
二、熵熵的概念是由德國物理學家克勞修斯於2023年所提出。最初是用來描述「能量退化」的物質狀態引數之一,在熱力學中有廣泛的應用。但那時熵僅僅是乙個可以通過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統計物理、資訊理論等一系列科學理論發展,熵的本質才逐漸被解釋清楚,即,熵的本質是乙個系統「內在的混亂程度」。
最後一句話表名了熵的本質,他是描述乙個系統混亂程度的,越是混亂,熵就越高,我們就越難看清真相,在上面的例子中什麼資訊都不知道的時候,就很難判斷最後一條資料的性別。
那麼物理學的概念怎麼用於資訊理論的呢?2023年,夏農提出了「資訊熵」的概念,定義如下:
h(x) = -∑p(xi)log(p(xi)) (i=1,2,…n)
其中:xi表示變數x可能的取值,p(xi)表示變數xi的概率
三、資訊增益
資訊增益是描述知道了某個因子或者資訊,整個系統混沌狀態的減少量。
條件熵公式:h(x|y)=-∑p(yi)h(x|y=yi)(i=1,2,…n)
那麼資訊增益:ig(y)=h(x)-h(x|y)
其中ig(y)表示y因子的資訊增益,h(x|y)表示y發生的情況下x的資訊熵
四、計算
1、整個**系統的資訊熵
7條資訊中3女、4男
h(性別)=-3/7log3/7-4/7log4/7=0.6829
2、知道「美柚」這個資訊,**系統的熵
h(性別|y=安裝美柚)=-3/4log3/4-1/4log1/4=0.5623
p(安裝美柚)=4/7
p(性別|y=不安裝美柚)=-0-3/3*log3/3=0
p(不安裝美柚)=3/7
ig(美柚)=0.6829-(0.56324/7+03/7)=0.3610
3、知道「網易體育」這個資訊,**系統的熵
p(性別|y=安裝網易體育)=-0-3/3*log3/3=0
p(安裝網易體育)=3/7
h(性別|y=不安裝網易體育)=-3/4log3/4-1/4log1/4=0.5623
p(不安裝網易體育)=4/7
ig(網易體育)=0.6829-(0.56324/7+03/7)=0.3610
4、知道「**」這個資訊,**系統的熵
h(性別|y=安裝**)=-3/7log3/7-4/7log4/7=0.6829
p(安裝**)=7/7=1
ig(**)=0.6829-0.6829*1=0
五、小結
我們經常說「資訊量大」,實際上乙個資訊所攜帶的資訊量是可以定量計算的,這是乙個有意思的事情。
在使用諸如樸素貝葉斯、決策樹、隨機森林等等此類的機器學習演算法來訓練模型時,往往會需要進行特徵提取,那麼資訊增益可以很好的實現這一點,另外還能達到降維的目的。
自己的想法:最後計算出的資訊增益的值越大說明特徵對結果越重要,應該被提取出來。
快樂源於分享。
基於顏色的特徵提取
內容及要求 一 設計說明 基於內容的影象檢索 content based image retrieval,cbir 技術由機器自動提取包含影象內容的視覺化特徵,如顏色 形狀 紋理等,對資料庫中的影象和查詢樣本影象在特徵空間進行匹配,檢索出與樣本相似的影象。其原理框圖如圖1所示。圖1 基於內容的影象檢...
基於顏色特徵提取數字
最近因為畢業課題的需要,初學opencv,鑽研一周,終於有一點點小小的收穫。編譯環境 vs2013 opencv.4.9 任務 攝像頭識別電梯中已亮的按鈕數字 目的 框選圖中已亮的3和5號按鈕。話不多說,上 rgb直方圖 把r通道分為32個bin int rbins 32 int histsize ...
基於詞性的特徵提取方法
關鍵字 基於詞性的特徵提取方法 上一節所介紹的這些方法 在英文特徵提取方面都有各自的優勢 但用於中文文字 並沒有很高的效率。主要有 2 個方面的原因 1 特徵提取的計算量太大 特徵提取效率太低 而特徵提取的效率直接影響到整個 文字分類系統的效率。2 經過特徵提取後生成的特徵向量維數太高 而且不能直接...