其中x表示隨機變數,隨機變數的取值為(x1,x2,…,xn),p(xi))表示事件xi發生的概率,且有∑p(xi)=1.資訊熵的單位為bit。
注:b為通道頻寬;s/n為訊雜比,通常用分貝(db)表示。
主成分分析(principalcomponentanalysis,簡稱pca)是一種常用的基於變數協方差矩陣對資訊進行處理、壓縮和抽提的有效方法。主要用於對特徵進行降維。
演算法假設:資料的概率分布滿足高斯分布或是指數型的概率分布。方差高的向量視為主元。
演算法輸入:包含n條記錄的資料集
演算法輸出:降維或壓縮後的資料集
演算法思想:
•1.計算所有樣本的均值m和協方差矩陣s;
•2.計算s的特徵值,並由大到小排序;
•3.選擇前n'個特徵值對應的特徵向量作成乙個變換矩陣e=[e1,e2, …, en』];
•4.最後,對於之前每乙個n維的特徵向量x可以轉換為n』維的新特徵向量
y=transpose(e)(x-m)
缺點:
(1) 當高維資料呈現非線性結構時,pca則不能有效地發現資料的本質特徵。
(2) pca對原始資料的分布要求滿足高斯分布,對於不服從高斯分布的資料,pca不能得到理想的結果。
(3) pca中需要保持主分量的個數難以確定。雖然在某些情況下可以通過協方差矩陣相鄰特徵值間的比值來選擇主成分分量,但當特徵值的變換比較平緩時,則很難對主成分進行選取。
推導過程:
1. 相對熵的認識
相對熵又稱互熵,交叉熵,鑑別資訊,kullback熵,kullback-leible散度(即kl散度)等。設
是
在一定程度上,熵可以度量兩個隨機變數的距離。kl散度是兩個概率分布p和q差別的非對稱性的度量。kl散度是
用來度量使用基於q的編碼來編碼來自p的樣本平均所需的額外的位元數。 典型情況下,p表示資料的真實分布,q
表示資料的理論分布,模型分布,或p的近似分布。
2. 相對熵的性質
相對熵(kl散度)有兩個主要的性質。如下
(1)儘管kl散度從直觀上是個度量或距離函式,但它並不是乙個真正的度量或者距離,因為它不具有對稱性,即
(2)相對熵的值為非負值,即
在證明之前,需要認識乙個重要的不等式,叫做吉布斯不等式。內容如下
3. 相對熵的應用
相對熵可以衡量兩個隨機分布之間的距離,當兩個隨機分布相同時,它們的相對熵為零,當兩個隨機分布的差別增
大時,它們的相對熵也會增大。所以相對熵(kl散度)可以用於比較文字的相似度,先統計出詞的頻率,然後計算
kl散度就行了。另外,在多指標系統評估中,指標權重分配是乙個重點和難點,通過相對熵可以處理。
面試總結(一)
又到了一年一度的就業高峰期,作為應屆畢業生中的一員,我也同樣為了自己的工作而奔波,經過乙個多星期的努力,拿下了四五家offer,最後選擇了一家自己比較滿意的公司 下面對求職當中遇到的一些問題進行下總結。一 簡歷準備 乙份好的簡歷是你個人的敲門磚,現在找工作基本上都是通過網上投遞你的簡歷,然後等待公司...
面試總結 一
記錄 2017年8月11日模擬面試問題及答案,許多自己答得很模糊,再次總結語言。面試總結 二 回答基於jdk1.8,低版本部分答案不適用 1.equals和 區別?答 在基礎資料型別中比較其大小,引用型別比較記憶體位址。equals在不重寫的情況下與 相同,重寫後是按照其本身方法內部規則進行判斷。任...
面試總結 (一)
單引號和雙引號的區別 單引號不解析 雙引號解析 在某些特定情況下,單引號效率要比雙引號高 xml和json的區別 js的五種資料型別,並說明原始資料型別和引用資料型別的區別 js的基本資料型別 number string boolean null和undefined 區別 說明myisam和inno...