這個已經沒時間弄了,過了enter日期.只好先學習人家咱弄的啦
每乙個driver都有200次的trace,即從0時刻的位置,到最終的位置,每乙個trace的資料大概500多個,且都將原點調整到了0,總共幾千個driver
各個driver目錄下的大多數trace都是其本人駕駛的,目標是找出does a driver drive long trips? short trips? highway trips? back roads? do they accelerate hard from stops? do they take turns at high speed? 這些特徵,進而判斷該driver目錄下的檔案是否屬於該driver。
即最終結果是
driver_trip,prob
1_1,1
1_2,1
1_3,1
...
def classify(self):
"""perform classification"""
clf = gradientboostingregressor(n_estimators=100, max_depth=4)
clf.fit(self.__traindata, self.__trainlabels)
self.__y = clf.predict(self.__testdata)
結合regressiondriver.py和startregressionslow.py看,由於每乙個訓練集得有負樣本,因此得選取幾個負樣本driver(也就是其他driver)的trace特徵加入訓練集
即訓練集的構成是:
某driver的特徵,label是一堆1,其他driver的特徵 ,label是對應的一堆0,然後測試集同訓練集的「某driver的特徵」
reference_data = {}
def generatedata(drivers):
global reference_data
for driver in drivers:
reference_data[driver.identifier] = driver.generate_data_model
with open(filename, "r") as trainfile:
trainfile.readline() # skip header
啦啦啦with open(os.path.join(outdir, "pyregression_.csv".format(submission_id)), 'w') as writefile:
writefile.write("driver_trip,prob\n")
for item in results:
writefile.write("%s\n" % item)
from joblib import parallel, delayed
results = parallel(n_jobs=10)(delayed(perform_analysis)(folder) for folder in folders)
普通不並行的話是:
results = [perform_analysis(folder) for folder in folders]
10 菜鳥啟程,向大牛進發
今天練習了一些函式的建立和使用。需求 獲取兩個整數中較大的那個數 class functiondemo3 public static int getmax int a int b else return b 列印99乘法表 public static void print99 system.out....
kaggle理論學習
線性回歸很簡單,用線性函式擬合資料,用 mean square error mse 計算損失 cost 然後用梯度下降法找到一組使 mse 最小的權重。lasso 回歸和嶺回歸 ridge regression 其實就是在標準線性回歸的基礎上分別加入l1 和 l2 正則化 regularizatio...
學習 積累 大牛
學習是什麼?為什麼要學習?如何學習?抓住重點學習。什麼是重點?能解決你的問題,那就是重點,所以要明確問題是什麼 目的是什麼 東西是學不完的。積累是什麼?為什麼要積累?怎麼積累?記錄關鍵點。站在巨人的肩膀上思考問題才更有效。從前者的 和思路中得到的。大牛是什麼?為什麼是大牛?怎麼成為大牛?主動對關鍵點...