kaggle DC比賽程序5

2021-09-20 08:19:58 字數 883 閱讀 9147

資料清洗:載客狀態的真實性、gps的連續性(因為現在預估不出這兩問題造成的影響,可以先跳過,先做第二步)

資料抽取:選取和**目標軌跡相同的行程(q:相似軌跡識別演算法?單使用者篩選or全體篩選?這裡本來一開始是打算直接學習全量資料,得到任意兩點的時間**模型(不可行,kill))

特徵工程:特徵選擇(各種**都試試)

訓練模型:基於機器學習平台做演算法的選擇(這部分都是套路,除非去做深度神經網路)

模型迭代:不斷重複上兩步,直到以優異的成績進入複賽o.o

通過昨天的地毯式搜尋,找到了一些開源的**。需要有人研讀一下,總結下其中的演算法,特別是軌跡識別,和復用價值:

r:kaggle_taxi_trajectory

py:kaggle-taxi-ii

r:kaggle-taxi-ii-1

突然想了下,為什麼不去直接找kaggle,taxi:

不要搶,大家都有份兒

我來承擔8個r的專案的研讀,注意只要時間**,不要看目的地**的專案。(待會分一下,還有兩個notebook的,完美)。注意:只看演算法,如果作者有文件說明,就勁量不要去研究沒有注釋的**(別問我為什麼)。

行程選擇部分應該是這個模型裡最重要的問題了,選取什麼樣的資料來做**?

關於行程選擇部分的兩個憂慮:

演算法複雜度太高,如果全體搜尋時間長,效率低?

選擇後的資料樣本不太大。不足以支援機器學習,過擬合現象嚴重。效果差?

kaggle DC比賽程序2

teamviewer介面 開啟xshell teamviewer.gif tips 關於本次會議 介紹個人在 演算法 程式設計 編輯方面的能力 更願意承擔的工作 能拿出來參與比賽的時間,中間會有什麼個人的重要時間節點 以下為個人示例 我對三個方面沒有偏重,但鑑於大家對計算環境不太了解,我更傾向於承擔...

kaggle DC比賽程序3 參考資料

本次比賽可借鑑的比賽有 nyc taxi 因為資料開源nyc open data,所以網上有大量的研究。ecml pkdd 15 taxi trajectory prediction kdd支援的在kaggle社群的比賽。381 teams 冠軍採訪 ecml pkdd 15 taxi trip t...

比賽5 總結

t2t3 t4t5t6 輸入n和長度為n的由0,1組成的序列,刪去一些數,使1後面沒有0.因為有1後,就不能有0,故僅需決定從哪個1開始刪去後面的0,且之前不能有1.include using namespace std int n,a 101 b 101 bb 0 int main for i 1...