總結:sparksql實現
m : 專案的個數,比如:該月該使用者**了多少種節目
分步計算
在資訊理論中,熵是對不確定性的一種度量。不確定性越大,熵就越大,包含的資訊量越大;不確定性越小,熵就越小,包含的資訊量就越小。
根據熵的特性,可以通過計算熵值來判斷乙個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指針對綜合評價的影響(權重)越大。比如樣本資料在某指標下取值都相等,則該指針對總體評價的影響為0,權值為0.
熵權法是一種客觀賦權法,因為它僅依賴於資料本身的離散性。
2. 指標的歸一化處理:異質指標同質化
由於各項指標的計量單位並不統一,因此在用它們計算綜合指標前,先要進行標準化處理,即把指標的絕對值轉化為相對值,從而解決各項不同質指標值的同質化問題。
另外,正向指標和負向指標數值代表的含義不同(正向指標數值越高越好,負向指標數值越低越好),因此,對於正向負向指標需要採用不同的演算法進行資料標準化處理:
數模演算法 熵權法(用於客觀確定權值)
根據資訊熵的定義,對於某項指標,可以用熵值來判斷某個指標的離散程度,其熵值越小,指標的離散程度越大,該指針對綜合評價的影響 即權重 就越大,如果某項指標的值全部相等,則該指標在綜合評價中不起作用。按照資訊理論基本原理的解釋,資訊是系統有序程度的乙個度量,熵是系統無序程度的乙個度量 如果指標的資訊熵越...
嫡權法賦權法 1 熵值法賦權
一 基本原理 在資訊理論中,熵是對不確定性的一種度量。資訊量越大,不確定性就越小,熵也就越小 資訊量越小,不確定性越大,熵也越大。根據熵的特性,可以通過計算熵值來判斷乙個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指針對綜合評價的影響 權重 越大,其熵值越小。...
r語言熵權法求權重(真實案例完整流程)
在資訊理論中,熵是對不確定性的一種度量。資訊量越大,不確定性就越小,熵也就越小 資訊量越小,不確定性越大,熵也越大。根據熵的特性,可以通過計算熵值來判斷乙個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指針對綜合評價的影響 權重 越大。比如樣本資料在某指標下取值...