(一)資料介紹
訓練資料(二)評價指標 其中:precise為準確率,recall為召回率; f11**資料
原始資料
表名數量
內容user
160w
使用者資訊
action
3721w
使用者-商品行為
comment
177w
shop
1w店鋪資訊
product
35w商品資訊
資料概況
行為數量內容
type=2
219w
大概1/20
sku_id(type=2)
12w購買的商品
測試集訓練集
train
test
newuser
153w
16w6w
user_cate
464w
17w12w
user_cate_shop
1390w
17w14w
user_sku
2214w
18w16w
是label=1或0的f1值,f12
是pred=1或0的f1值。
思考一:
是不是有的使用者只瀏覽不買東西,那這些使用者就幾乎不可能買東西,可刪。思考二:
最後一周加購物車的是不是很可能買?二分類:
問題難點特徵工程: (一)xgb引數把問題看作二分類問題
通用引數(二)調參過程booster引數
學習目標引數
import xgboost as xgb
from xgboost.sklearn import xgbclassifier
from sklearn import cross_validation, metrics
from sklearn.grid_search import gridsearchcv
parameters =
xlf = xgb.xgbclassifier(max_depth=10,
learning_rate=0.01,
n_estimators=2000,
silent=true,
objective='binary:logistic',
nthread=-1,
gamma=0,
min_child_weight=1,
max_delta_step=0,
subsample=0.85,
colsample_bytree=0.7,
colsample_bylevel=1,
reg_alpha=0,
reg_lambda=1,
scale_pos_weight=1,
seed=1440,
missing=none)
gsearch = gridsearchcv(xlf, param_grid=parameters, scoring='accuracy', cv=3)
gsearch.fit(train_x, train_y)
print("best score: %0.3f" % gsearch.best_score_)
print("best parameters set:")
best_parameters = gsearch.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
print("\t%s: %r" % (param_name, best_parameters[param_name]))
(三)處理不平衡
大概70:1,xgb中有scale_pos_weight
,可以快速收斂,沒有其他特殊處理,因為不知道正負例比例,也不知道最終提交多少合適,都是根據輸出的概率調,只要概率能保證正例的概率比負例大即可。
(四)特徵選擇
(五)模型融合
最終線性融合最好 (六)gbdt、xgb、lgb區別rf與gbdt之間的區別與聯絡?模型融合之stacking方法【gbdt優缺點】
【gbdt和xgboost比較】
【為什麼用泰勒展開】
【xgboost和lightbgm比較】
京東資料採集整理標準化流程介紹
用電商資料採集軟體採集過資料的朋友就應該很清楚,我們輸入指令通過採集軟體將我們需要的 天貓 京東等平台資料採集回來後,其實裡面包含了很多配件及其他不相關的產品。如果是需要需要用這批資料做產品的分析我們需要刪除配件,整理品牌 型號。整理這過程極其枯燥乏味,而且費眼力,很多客戶雖然花錢買了原始資料,但是...
牛客 比賽(比賽贏得概率)
你在打比賽,這場比賽總共有12個題 對於第i個題,你的隊伍有a i 的機率解決她 如果解決不了她呢?由於所有人討論的都很大聲 所以你有b i 的概率從左邊那個隊那裡聽會這個題的做法 有c i 的概率從右邊那個隊那裡聽會這個題的做法 請問最終你們隊伍解出0 12題的概率分別是多少 第一行12個數表示a...
python京東商品 Python爬取京東商品資料
對京東某一商品資訊頁面的html 進行分析。能夠發現它的圖書產品資訊頁面都含有這樣一段 不同類的商品頁面有些不同 window.pageconfig 顯然這就是我們須要的商品資訊,python 例如以下 import json import re import urllib for i in ran...