雖然只參與了幾個小型的資料比賽,成績也十分慘淡,但還是有一些小小收穫記錄下來以便查閱。
1、比賽流程:
問題分析-》樣本處理-》特徵抽取-》模型選擇/實現-》調參測試-》提交
當然,與軟體工程相同,比賽的過程也是迭代進行的,每次提交之後可能就要重新走一遍流程以發現改進點。
以目前淺薄的經驗來看,最重要的步驟是特徵抽取、模型選擇與調參,之後會進行詳細介紹
2、注意事項:
1》戒驕戒躁:一兩次提交、甚至一兩次比賽的結果都不要看的太重,關鍵是從中學會解決該類問題的基本方法,發現自己的弱點和不足。
2》溝通交流:最好能有固定的隊伍、廣泛的交流圈子,很多時候困擾你的問題別人一兩句話就能讓你走出誤區。
3》確定目標:如果你志在獎金或者排名那就不要拘泥於模型的實現,要綜合考慮問題的各個方面,針對具體問題需要考慮不同的解決方案,如果你是抱著學習的目的來的,那就要多嘗試、多實踐,多整理,充分的體會各種不同模型的區別,理解機器學習解決問題的基本方法。
大資料儲存綜述
san 金融電信級別,高成本的儲存方式,涉及到光纖和各類高階裝置,可靠性和效能都很高,除了貴和運維成本高,基本都是好處。檔案儲存 nas,網路儲存,用於多主機共享資料。物件儲存 跟自己開發的應用程式打交道,如網盤。分布式鍵值系統 分布式鍵值系統用於儲存關係簡單的半結構化資料。典型的分布式鍵值系統有a...
讀文獻「大資料可視分析綜述」
大資料具有4v特徵,即 體量巨大 volume 型別繁多 variety 時效性高 velocity 以及價值高密度低 value 大資料分析的理論和方法研究可以從兩個維度展開 一是從機器或計算機的角度出發,強調機器的計算能力和人工智慧,以各種高效能處理演算法 智慧型搜尋與挖掘演算法等為主要研究內容...
大資料比賽(3) 模型選擇II
神經網路與深度學習初步 基礎老規矩,先推文章 手把手入門神經網路系列 1 從初等數學的角度初探神經網路 深度學習概述 從感知機到深度網路 deep learning 深度學習 學習筆記整理系列 相信深度學習大熱的今天,大家對神經網路多少都有一些了解。在傳統的 教科書 之外,寒小陽同學所寫的部落格從另...