之前的特徵值有10幾個,有點少了。增加特徵值到40多個。特徵選取參考
使用pyspark.ml.classification import gbtclassifier 裡的模型。
幾個引數解釋:
#maxiter 迭代次數
#maxdepth 樹的最大深度
#stepsize 每次迭代優化步長(學習速率)
#seed 隨機種子
在正反訓練比例為1比1000左右做了幾組測試。(驗證集正反例比例為1:1)
gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.4,seed=50
testing accuracy is 48.83653286794648 %
testing f1 is 48.92483484100073 %
gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.2,seed=50
testing accuracy is 48.632926119837116 %
testing f1 is 48.89735152944631 %
gbtclassifier(maxiter=20,maxdepth=10,stepsize=0.1,seed=50
無太大提公升
可以看出調整引數無太大提公升,考慮修改訓練集的正反比例為1比30
testing accuracy is 52.065154159395 %有一些提公升testing f1 is 52.344773727470994 %
再選擇 1比20 和1比100的比例進行對比
1比20:
testing accuracy is 50.78534031413613 %1比100:testing f1 is 50.98678995075511 %
testing accuracy is 48.57475276323444 %
testing f1 is 48.89881100109361 %再做乙個1比50:
testing accuracy is 50.08726003490401 %對比下來, 訓練資料就用1比30的正反比例比較不錯。testing f1 is 50.42111031072746 %
按這個訓練模型,進行**,提交結果,準確率依舊不高。
2.參考該比賽決賽團隊的方案,對使用者組進行清洗,篩選 只看不買和對商品子集無購買的使用者。
對反例資料集進行取樣 ,控制訓練資料的正反比例1比20~1比30之間。
驗證資料集 只用正例資料:
maxiter=20,maxdepth=10,stepsize=0.1,seed=50,驗證結果:
maxiter=30,maxdepth=10,stepsize=0.1,seed=123123
驗證結果為:
testing accuracy is 23.943661971830984 %testing f1 is 38.63636363636363 %
天池新人賽 資料探勘
組別 wlh 奧林匹克百公尺跑資料 python 程式設計是基於python的環境進行,可以在環境中構造資料模型 畫出建立的方程模型影象和散點圖的影象,進行對比 x test np.linspace 1896,2008,100 none 在文件中讀取x的值 f test w0 w1 x test 之...
從零開始天池新人離線賽 資料預處理
作為乙個資料探勘和python程式設計的雙面小白,從零就真的是從一張白紙開始了。今天,首先學習怎麼將阿里給我們的csv檔案匯入到python中 import csv itemcsv file d test item.csv rb r1 csv.reader itemcsv 到這步為止,初步將該ite...
阿里天池新人賽 之街景字元識別(1)
正式賽時間 2020.5.14 2020.6.24 比賽 所有的資料 訓練集 驗證集和測試集 的標註使用json格式,並使用檔名進行索引。如果乙個檔案中包括多個字元,則使用列表將字段進行組合。賽題思路分析 賽題本質是分類問題,需要對的字元進行識別。但賽題給定的資料中不同中包含的字元數量不等,如下圖所...