機器學習解決問題的流程

2021-08-22 07:07:45 字數 1095 閱讀 3124

了解場景和目標

對要解決的問題做具體分析,理解業務場景,這種場景中的常用模型。

了解評估準則

最終的目標是從準確率還是召回率方向(打個比方)做為模型的評估標準

認識資料

了解資料是否平衡,型別,結構,關聯關係

資料預處理(清洗,調權)

型別轉化,缺失值處理,標準化或者歸一化,one-hot

資料本身的質量優於模型的選擇,只是資料足夠好,乙個簡單模型也可以得到很好的效果

特徵工程

從什麼樣的角度去構建模型

另外一篇文章介紹

模型調參

大家都用一樣的模型,你的效果沒有別人的好,資料處理的差不多的情況下,一般就是你模型引數沒有選擇好的問題了。

模型狀態分析

交叉驗證

過擬合欠擬合

學習曲線

模型融合

一、投票機制

bagging

(對不同的分類器的結果進行投票)

random forest(1.隨機選擇k個屬性,找到最佳分割屬性建立決策樹2.建立多顆決策樹3.投票)

二、多模型得到的結果進行處理

stacking

三、逐步逼近

adaboost(1.對前乙個分類器分錯的樣本進行加權,訓練下乙個分類器。2.多個弱分類器組成了乙個強分類器)調樣本的權重

gradient boosting tree

(1.下一顆樹擬合上顆樹的殘差。2.逐步逼近閥值)調loss function

xgboost

(原理與gbdt類似,很多地方做了更細節的處理)

核心思路

拿到資料後怎麼了解資料(視覺化)

選擇最貼切的機器學習演算法

定位模型狀態(過/欠擬合)以及解決方法

大量極的資料的特徵分析與視覺化

各種損失函式(loss function)的優缺點及如何選擇

解決問題 基本流程

世界上沒有解決不了的問題,任何事情都必須有解決方案。只是解決方案有好的和不好的,所以為了讓自己在遇到任何問題之時能盡可能提煉出好的解決方案,就必須學會掌握解決所有問題的方法,也就是學會思考 邏輯思考能力 1 目的 做任何事情,處理任何問題,在行動之前,首先明確自己的目標是什麼 2 優勢 對待一件事情...

解決機器學習問題的流程

有監督或者無監督問題,是分類還是回歸問題。使用爬蟲收集遠端監督資料,或者收集目前已有開源資料集。對於收集來的資料進行清洗工作,比如異常值檢測 離群點檢測 可以採用聚類方法k means,找出離群點,以及基於統計的方法如分布在正態分佈不接受的範圍內的。將資料集分為訓練集,驗證集,測試集。採用交叉特徵,...

人工智慧啟蒙(3) 機器學習解決問題的全部流程

上篇文章 人工智慧啟蒙 2 機器學習的優勢 我們講了機器學習是實現人工智慧的重要方式,相比基於具體規則的傳統方式有很大的優勢。今天我們來講下用機器學習解決實際問題的整個過程。我們可以拿人類學習作為模擬。學校的教學目標之一是為了提高能力掌握技能,以便學生更好的解決問題。那如何衡量學生能力情況呢。通常是...