資料集中資料為4萬張100*100的jpg格式,下圖所示:
行人訪問資料為每乙個地點的各個行人不同時間的訪問資訊,例如屬於居民區的某一地點的行人訪問記錄:
資料集中有很多雜訊比如全黑或者全白,全黑應該是切割時候將黑色位置也切割進去了,白色位置為雲遮蓋,將這些雜訊全部過濾掉。資料集下了不少的功夫卻收效甚微,實驗了大量的模型vgg16、vgg19、resnet系列、inception系列、resnext、nasnet、se-resnext等最好的結果是nasnet和se-resnext的accuracy在0.4左右。也通過這幾個表現較好的網路進行融合將結果投票、將各個網路輸出的每個類別的概率相加等做法,有些類似於bagging中隨機森林的思想,但是效果還是不太好,沒有明顯的提公升,
總體baseline思路是這樣的(inspired by :
通過兩個網路提取特徵,通過網路的最後一層256和612後進行拼接成768再進行fully connected最後9個類別(而在我的團隊中是**出來9個位置的概率後整合在一起),啟用函式設成soft max即可可以達到0.5左右。這裡的visit network如果是卷積網路等比較容易整合到一起訓練,如果使用xgboost、ligntgbm等就得分開訓練了。這裡值得注意的一點是使用了dpn卷積網路來處理序列資料,具體的做法是把visit資料轉換為7x26x24的矩陣(7天26周24小時),將這個矩陣看作的格式7個通道,26*24的大小輸入dpn卷積網路進行訓練,使用了處理的思想來處理序列資料,非常值得參考,記得2023年北郵有乙個大資料競賽就是給定了行人訪問資料判斷地點的標籤,便可以使用這個模型。
下面的這個思路是將行人資料和資料訓練的不同模型的結果輸入到xgboost模型進行融合能達到0.6左右成績。inspired by( ,與上乙個架構不同點在於最後一層不再使用全連線作為融合,而是使用xgboost融合。架構如下圖所示,使用了xgboost取代了dpn網路,這提高了模型的準確率,這裡值得指出的是我們團隊使用的是lightgbm準確率卻低百分之零點幾的百分點,可見ligntgbm提高了訓練的速度卻犧牲了模型的精度為代價。
接下來的思路在上一版的基礎上進行迭代,使用如下的架構,作者因為時間原因並沒有實現其中的分割網路,只使用了其餘的三個網路,準確率最終也達到了0.7左右,這個思路結合了第乙個和第二個思路中處理序列的網路,將se-resnext、xgboost、dpn分別訓練**出各個位置的概率後輸入到xgboost中。
2018百度西交大大資料競賽 商家招牌的分類與檢測
比賽官網 賽題簡介 現實生活中的招牌各種各樣,千變萬化。針對初賽,在現實世界中,選取100類常見的招牌資訊,如肯德基 麥當勞 耐克等。每類招牌挑選出10 30張影象作為訓練資料,5 10張影象作為測試資料。參賽者需要根據訓練集,構建演算法模型,然後針對測試集進行分類,將最終的分類結果上傳到比賽平台。...
百度西交大大資料戰略合作共建創新人才平台
4月9日,在西安交通大學120周年校慶的重大日子裡,和西交大共同舉行了大資料戰略合作發布會,旨在促進校企合作協同育人,通過高校和企業之間的優勢資源共享,共建大資料創新人才平台。通過強強聯合,企業提供前瞻的技術和課題,高校配套高水平的基礎教育和科研實力,以此共同加快拔尖創新人才的培養。在此次戰略合作發...
西安郵電大學第五屆ACM ICPC校賽 校車
題目鏈結 西安郵電大學有一輛從老校區到新校區的校車,總共有 n 個學生乘坐校車,在ai站上車,在bi站下車。學校打算去除一部分不必要的站點,請問需要保留多少站點,需要安排多少個座位?輸入描述 輸入 t 組資料 1 t 10 輸入 n 輸入 n 組 ai bi 輸出描述 輸出保留站點數,座位數。示例1...