基於熵的特徵提取

2021-09-12 02:17:25 字數 1754 閱讀 3036

基於熵的特徵提取

一、引言

最近一直在研究自然語言處理、文字分析相關的問題,看了不少**,資料分析是乙個非常有意思的東西,故準備寫一些博文來分享近來的一點心得。

研究的問題明確一下,通過前面7條資料來判斷最後一條資料的性別?

一眼掃過,直覺告訴我:

2、安裝美柚和網易彩票,貌似很有區分度,這兩個因子「資訊量」貌似很大。

資訊量大不大,能不能定量計算呢?請接著往下看,繫好安全帶,我們全速前進咯。

二、熵熵的概念是由德國物理學家克勞修斯於2023年所提出。最初是用來描述「能量退化」的物質狀態引數之一,在熱力學中有廣泛的應用。但那時熵僅僅是乙個可以通過熱量改變來測定的物理量,其本質仍沒有很好的解釋,直到統計物理、資訊理論等一系列科學理論發展,熵的本質才逐漸被解釋清楚,即,熵的本質是乙個系統「內在的混亂程度」。

最後一句話表名了熵的本質,他是描述乙個系統混亂程度的,越是混亂,熵就越高,我們就越難看清真相,在上面的例子中什麼資訊都不知道的時候,就很難判斷最後一條資料的性別。

那麼物理學的概念怎麼用於資訊理論的呢?2023年,夏農提出了「資訊熵」的概念,定義如下:

h(x) = -∑p(xi)log(p(xi)) (i=1,2,…n)

其中:xi表示變數x可能的取值,p(xi)表示變數xi的概率

三、資訊增益

資訊增益是描述知道了某個因子或者資訊,整個系統混沌狀態的減少量。

條件熵公式:h(x|y)=-∑p(yi)h(x|y=yi)(i=1,2,…n)

那麼資訊增益:ig(y)=h(x)-h(x|y)

其中ig(y)表示y因子的資訊增益,h(x|y)表示y發生的情況下x的資訊熵

四、計算

1、整個**系統的資訊熵

7條資訊中3女、4男

h(性別)=-3/7log3/7-4/7log4/7=0.6829

2、知道「美柚」這個資訊,**系統的熵

h(性別|y=安裝美柚)=-3/4log3/4-1/4log1/4=0.5623

p(安裝美柚)=4/7

p(性別|y=不安裝美柚)=-0-3/3*log3/3=0

p(不安裝美柚)=3/7

ig(美柚)=0.6829-(0.56324/7+03/7)=0.3610

3、知道「網易體育」這個資訊,**系統的熵

p(性別|y=安裝網易體育)=-0-3/3*log3/3=0

p(安裝網易體育)=3/7

h(性別|y=不安裝網易體育)=-3/4log3/4-1/4log1/4=0.5623

p(不安裝網易體育)=4/7

ig(網易體育)=0.6829-(0.56324/7+03/7)=0.3610

4、知道「**」這個資訊,**系統的熵

h(性別|y=安裝**)=-3/7log3/7-4/7log4/7=0.6829

p(安裝**)=7/7=1

ig(**)=0.6829-0.6829*1=0

五、小結

我們經常說「資訊量大」,實際上乙個資訊所攜帶的資訊量是可以定量計算的,這是乙個有意思的事情。

在使用諸如樸素貝葉斯、決策樹、隨機森林等等此類的機器學習演算法來訓練模型時,往往會需要進行特徵提取,那麼資訊增益可以很好的實現這一點,另外還能達到降維的目的。

自己的想法:最後計算出的資訊增益的值越大說明特徵對結果越重要,應該被提取出來。

快樂源於分享。

基於顏色的特徵提取

內容及要求 一 設計說明 基於內容的影象檢索 content based image retrieval,cbir 技術由機器自動提取包含影象內容的視覺化特徵,如顏色 形狀 紋理等,對資料庫中的影象和查詢樣本影象在特徵空間進行匹配,檢索出與樣本相似的影象。其原理框圖如圖1所示。圖1 基於內容的影象檢...

基於顏色特徵提取數字

最近因為畢業課題的需要,初學opencv,鑽研一周,終於有一點點小小的收穫。編譯環境 vs2013 opencv.4.9 任務 攝像頭識別電梯中已亮的按鈕數字 目的 框選圖中已亮的3和5號按鈕。話不多說,上 rgb直方圖 把r通道分為32個bin int rbins 32 int histsize ...

基於詞性的特徵提取方法

關鍵字 基於詞性的特徵提取方法 上一節所介紹的這些方法 在英文特徵提取方面都有各自的優勢 但用於中文文字 並沒有很高的效率。主要有 2 個方面的原因 1 特徵提取的計算量太大 特徵提取效率太低 而特徵提取的效率直接影響到整個 文字分類系統的效率。2 經過特徵提取後生成的特徵向量維數太高 而且不能直接...