按照前面文章的方法進行資料**,完全不使用poi,天氣,交通情況的資料,可以達到0.43的成績。
不過如果想要獲得更好的成績,簡單的**方法顯然無法滿足要求了。
網友說可以使用gbdt的方法來進行資料**。所以,我們先來聊聊gbdt演算法的一些基礎知識。
熵
熵(entropy)指的是體系的混亂的程度,它在控制論、概率論、數論、天體物理、生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,是各領域十分重要的參量。熵由魯道夫·克勞修斯(rudolf clausius)提出,並應用在熱力學中。後來在,克勞德·艾爾伍德·夏農(claude elwood shannon)第一次將熵的概念引入到資訊理論中來。乙個體系越是單調,則熵越低,反之亦然。
這裡我們引用資料探勘大神的文章來接單說一下熵。
這個很容易計算
這個很容易計算
h(x)= 1.5
p(math) = 1/2 p(history)= 1/4 p(cs)= 1/4
log(0.25,2) = - 2 log(0.5,2) = - 1
h(x) = - (1/2) * log(0.5,2) - (1/4) * log(0.25,2) - (1/4) * log(0.25,2) = 0.5 + 0.5 + 0.5 = 1.5;
h(y)= 1
p(yes) = 1/2 p(no) = 1/2
h(y) = - (1/2) * log(0.5,2) - (1/2) * log(0.5,2) = 0.5 + 0.5 = 1;
h(y | x ): 條件熵 conditional entropy
現在我們考慮乙個問題,如果我們需要將y傳輸出去。當然,如果直接傳輸的話, h(y)= 1。
如果我們在傳輸的時候,雙方都知道x的值,則需要熵定義為h(y | x )。
例如:大家都知道x=history,則 y 必然是 no, h(y ) = 0 , histroy的可能性是1/4 ,需要的傳輸量是 0(cs同理)
大家都知道x=math,則 y 可能是 yes或者no,h(y ) = 1 ,math的可能性是1/2 ,需要的平均傳輸率是 1/2 * 1 = 0.5
math的概率 p(math) = 1/2 ; history的概率 p(histroy)= 1/4; history的概率 p(cs)= 1/4;
則我們定義h(y | x ) = h(y | x = math) * p(math) + h(y| x = histroy) * p(histroy) + h(y| x = cs) * p(cs) = 0.5
information gain 資訊增益 和 relative information gain
從上文可知,比起直接傳輸y,條件熵則更加划算了。這些划算的部分,我們稱為資訊增益ig。
ig(y|x) = h(y) - h(y | x)
上面的例子,ig(y|x) = h(y) - h(y | x) = 1 - 0.5 = 0.5
進一步,這樣划算的部分,佔原來所需部分的比重是多少呢?
rig= ig(y|x) / h(y) = 0.5 / 1 = 0.5 (節省的部分佔了50%)
資訊增益是什麼,我們先從它的用處來了解它:指標選擇資訊增益是特徵選擇中的乙個重要指標,它定義為乙個特徵能夠為分類系統帶來多少資訊,帶來的資訊越多,該特徵越重要。
回到滴滴演算法的問題,我們應該挑選哪些指標作為gbdt的參考呢?
滴滴演算法大賽演算法解決過程 - 資料分析
滴滴演算法大賽演算法解決過程 - 擬合演算法
滴滴演算法大賽演算法解決過程 - 方案設計
滴滴演算法大賽演算法解決過程 - 機器學習
滴滴演算法大賽演算法解決過程 機器學習
按照前面文章的方法進行資料 完全不使用poi,天氣,交通情況的資料,可以達到0.43的成績。不過如果想要獲得更好的成績,簡單的 方法顯然無法滿足要求了。說可以使用gbdt的方法來進行資料 所以,我們先來聊聊gbdt演算法的一些基礎知識。熵熵 entropy 指的是體系的混亂的程度,它在控制論 概率論...
滴滴演算法大賽演算法解決過程 擬合演算法
概論 gap的 是建立在乙個擬合函式上的。也有一些機器學習的味道。總的gap函式 函式 時間,地區 交通流量和時間有關,乙個地方的擁堵程度和時間有關係 不同的地區,各種設施配置不同。天氣和時間有關。gap函式 函式 交通擁擠度函式 時間,地區編號 poi函式 地區編號 天氣函式 時間 這裡可以認為,...
滴滴演算法大賽演算法解決過程 方案設計
上面兩篇文章講了一些分析情況,整個模型變得很不確定了 資料分析 擬合演算法 滴滴演算法大賽到底需要什麼樣子的答案?我一開始的想法是建立乙個模型,通過天氣,poi,交通擁堵的引數來推導出訂單數和gap數。但是通過現有的資料發現,這個模型很難建立。其實看一下題目,這是乙個 題 給定每個區域在時間片tj,...