根據各個指標獲得綜合指標時,由於各個指針對綜合指標的貢獻度不同,相應權重也應不同,對綜合指標貢獻大的指標更重要,應該分配更大的權重。如何確定各個指標的權重,這裡介紹兩種方法:熵值法和pca確定權重。也可用於特徵工程中確定特徵權重。
一、熵值法
1、熵的概念
資訊理論中,熵是對隨機變數不確定性的度量。熵值越小,無序程度越小,不確定性越小,資訊量越大;熵值越大,無序程度越大,不確定性越大,資訊量越小。可用熵值計算特徵的離散程度,離散程度大的特徵對綜合值影響更大。
熵值大,資訊量小,權重應該小;熵值小,資訊量大,權重應該大。
熵的計算公式
2、熵值法確定權重
指標1指標2
……指標m
......
......
確定指標1到指標m的權重
指標值不同取值的出現次數相差大,熵小,資訊量大,權重應大;指標值不同取值的出現次數相差小,熵大,資訊量小,權重應小。
當m個指標值完全相同時,熵最大,可移除該指標。
熵值法確定權重的步驟:
1、歸一化
對指標值進行歸一化,歸一化時,應考慮指標值的影響
當指標值越大越好時,可使用公式
x=(x-xmin)/(xmax-xmin)
當指標值越小越好時,可使用公式
x=(xmax-x)/(xmax-xmin)
2、定義熵
m個指標,n個被評價物件
第i個指標
3、定義熵權
二、pca確定權重
ex:n個主成分,m個指標
w表示各主成分的係數,wij表示第乙個主成分第j個指標的係數,fi表示第乙個主成分的方差貢獻率
則第q個指標的權重為
歸一化
熵權法確定權重
總結 sparksql實現 m 專案的個數,比如 該月該使用者 了多少種節目 分步計算 在資訊理論中,熵是對不確定性的一種度量。不確定性越大,熵就越大,包含的資訊量越大 不確定性越小,熵就越小,包含的資訊量就越小。根據熵的特性,可以通過計算熵值來判斷乙個事件的隨機性及無序程度,也可以用熵值來判斷某個...
負載均衡權重係數演算法 C
為保證程式的穩定性和質量,記憶體要求使用智慧型指標 c 11 同時使用了boost 智慧型指標使用c 11 1 自定義標準標頭檔案se std.h ifndef h cf4bc297 2737 4b2e ab51 c0915f823960 define h cf4bc297 2737 4b2e ab...
kpi權重設定原則 績效指標確定權重的原則
一 系統優化原則 在績效評價指標體系中,每個指針對系統都有它的作用和貢獻,對系統而言都有它的重要性。所以,在確定它們的權重時,不能只從單個指標出發,而是要處理好各評價指標之間的關係,合理分配它們的權重。應當遵循系統優化原則,把整體最優化作為出發點和追求的目標。在這個原則指導下,對評價指標體系中各項評...