熵(entropy)是表示隨機變數不確定性的度量.所以熵越小越好
之所以po出來是因為裡面好多小函式自己找了好久 r語言用的人太少了 好痛苦
#computing shannonent
calshannonent<-function(dataset)
} t = null
shannonent = 0
for(i in
1:length(labelcount))
# labelcount = as.numeric(labelcount)
return (shannonent)
}dataset = matrix(c(1, 1, "yes", 1, 1, "yes", 1, 0, "no", 1, 0, "no", 0, 1, "no"),
byrow = t,
nrow =5)
colnames(dataset)[3] = "labels"
s = calshannonent(dataset)
機器學習 決策樹( 夏農熵)
夏農熵定義為資訊的期望值。在資訊理論與概率統計中,熵是表示隨機變數不確定性的度量。假定當前樣本集合d中一共有n類樣本,第i類樣本為xi 那麼xi的資訊定義為 舉例 若小明和小華下棋,兩人勢均力敵,則資訊熵h 1 2 log2 1 2 1 2 log2 1 2 1bit。夏農熵的計算公式為 夏農熵的值...
夏農熵及決策樹建立方法
資訊熵決策樹 推薦閱讀 通訊的數學理論 在網路中進行資訊傳遞,所有資訊都是01010的二進位制編碼格式,例如這樣一封信,信中只有狗,貓,魚,鳥四個詞 信的所有內容就是這4個詞的組合。第一封信寫著 狗貓魚鳥 第二封信寫 魚貓鳥狗 信件需要二進位制編碼,在網際網路傳遞。兩個二進位制位就可以表示四個詞彙。...
決策樹 資訊熵增益
from math import log import operator defcreatedateset dataset 青年 否 否 一般 否 青年 否 否 好 否 青年 是 否 好 是 青年 是 是 一般 是 青年 否 否 一般 否 中年 否 否 一般 否 中年 否 否 好 否 中年 是 是 ...