一、資料預處理
1)缺失資料處理。對於缺失資料,可以取平均值。如果大量樣本都缺失該特徵,可以直接去掉該特徵。
2)特徵轉換。將字串特徵轉換為對應的數字表示。
3)歸一化處理
4)資料轉換。將偏態資料轉換成盡量符合正態分佈特徵。
二、特徵工程
分析特徵對最終模型的影響程度,如果是回歸問題,就看特徵對y值的影響;分類問題,就看特徵對分類結果的影響大小。可以採用圖表的方式直觀來展現、分析,更具有說服力。最終目的是剔除一些對模型影響不大的冗餘特徵,使得模型更加精煉。
三、模型選擇與構建
根據問題的求解以及資料的形態、分布情況,分析選擇什麼樣的模型來解決問題更合適,是分類、聚類問題,還是回歸問題等等。不同的問題選擇不同的數學模型,並構建相應模型進行下一步處理。
四、模型驗證與引數選擇
這一步可以利用交叉驗證方法選擇模型的引數,例如選擇正則化引數λ、多項式回歸中的最高次數d、svm中的引數c與σ等等。
另外一方面就是對模型的選擇,同樣利用交叉驗證方法,可以對比選擇模型,是採用ridge回歸還是lasso回歸等等。
五、模型最終打分
當模型訓練完成並交叉驗證確定後,利用測試集對模型做最後的評測,計算精確度,或者求解f1值,給模型做乙個最後的打分。
機器學習流程
機器學習其實就是利用現有資料,設計出演算法模型的過程。其流程如下 1 獲取資料 2 資料分析 3 設計演算法 4 測試演算法 5 驗證評估 6 提交演算法 對資料的處理分為四種情況 分類 聚類 回歸 降維。其中又以分類為主。分類思想主要分為兩種 1 利用歐式距離判定樣本屬於哪一類。2 利用概率大小進...
機器學習流程介紹
本文只是對機器學習的流程做乙個簡單的描述,每個環節涉及的東西很多,不是本文介紹的範圍,對其中比較重要的知識點稍微提及一下,具體的可以參考其他文章學習。先上一張流程圖。機器學習從資料準備到上線流程 接下來根據流程圖,逐步分析機器學習的流程。1.資料來源 機器學習的第乙個步驟就是收集資料,這一步非常重要...
機器學習專案流程
在微博上看到七月演算法寒老師總結的完整機器的學習專案的工作流程,結合天池比賽的經歷寫的。現在機器學習應用非常流行,了解機器學習專案的流程,能幫助我們更好的使用機器學習工具來處理實際問題。1.理解實際問題,抽象為機器學習能處理的數學問題 理解實際業務場景問題是機器學習的第一步,機器學習中特徵工程和模型...