2016 12 28回顧 GBDT初探

2021-07-25 16:42:54 字數 748 閱讀 5695

gbdt是在sklearn的ensemble包中,屬於一種整合學習的思想,分為回歸樹和分類樹

from sklearn.ensemble import gradientboostingregressor

from sklearn.ensemble import gradientboostingclassifier

前者是回歸樹,後者是分類樹

sklearn中大多數演算法使用起來都很簡單,都是生成乙個分類器,這個分類器有很多引數,用訓練集進行訓練,然後用測試集進行測試,基本上所有的有監督學習都是採用這樣一種套路

另外sklearn提供了一種自動劃分資料集為訓練集和測試集的方法,

from sklearn import cross_validation

x_train,x_test,y_train,y_test = cross_validation.train_test_split(x,y,test_size=0.3)

類似這樣,x是原始的data,是乙個二維的陣列,y是原始target_variable,是乙個一維陣列,這個方法可以直接使用,沒關係

model.score可以計算分類正確率

我在思考的問題就是如何把演算法的輸出rank order,分類樹,我不清楚他分類之前是什麼樣乙個形式,是乙個probability呢?還是什麼呢?如果直接用回歸樹如何?直接用回歸樹的值就行rank order可以嗎?我記得當時simon叫huang做線性回歸,就是輸出的值進行rank order!

均方誤差mse計算形式如方差

2017 03 20回顧 霸氣

1 仔細看了矩陣求導的公式,推出了最小二乘的引數表示式,但是矩陣求導公式本身,我嘗試推導了一下,發現沒對頭,矩陣求導的關鍵就是對其中每乙個元素分別求導,然後照著 機器學習實戰 寫了最小二乘法的 2 和群內的夥伴交流了下,也說到了是否有意去外地,這成了我最近亟待考慮的問題 3 其中提到exprian的...

2016回顧與總結

2016年總結 工作半年了,回顧半年的經歷,總結如下 對產品都已經熟悉。對於常見的安裝過程中的問題也能夠判斷問題的大概。並且,通過指令碼的清環境安裝等,安裝過程中的問題也逐漸的減少。對我們自己內部的工具的使用,echo ring,nic status.py 等,論壇,gogs,wiki等的掌握使用。...

2017 06 13回顧 series篩選

1 上午涉及到幾天的小結,所以差不多用了乙個上午的時間,小結中確定了早睡的督促辦法 2 做員工貸的邏輯,沒什麼新東西,寫了新的邏輯 3 嘗試了7c的最大授信邏輯,但是有一些問題,擱置了 4 然後就是同盾的在網時長改版的問題 5 晚上主要是做標準評分卡的工具包,主要解決幾個問題,乙個是離散化的問題,離...