step 1:對問題進行分類
法一:
法二:
step 2:尋找可用的演算法
根據分類結果,尋找對應合適的演算法
2.1 分類
2.1.1 svm
(1)可用於找到盡可能寬的分類的邊界:當兩個分類不能被清楚地分開時,該演算法會找到其所能找到的最 佳邊界
(2)處理特徵密集的資料
2.1.2 人工神經網路
涵蓋二分類、多分類和回歸問題的腦啟發式學習演算法
2.1.3 邏輯回歸
用於二分類和多分類問題的強大工具,可以給出線性分類邊界
2.1.4 決策樹和隨機森林
將特徵空間(feature space)細分為具有大致相同標籤的區域
2.2 回歸
2.2.1 線性回歸
2.2.2 貝葉斯回歸
2.2.3 提公升決策樹回歸
2.3 聚類
2.3.1 層次聚類
2.3.2 k-means
2.4 異常檢測
2.4.1 knn
2.4.2 單類支援向量機
step 3:實現所有適用的演算法
(1)通過最小量的特徵工程快速且粗糙地實現一些演算法。如分類問題用分類演算法解決
(2)找出步驟(1)中表現較好的演算法作為候選演算法
(3)使用一組經過仔細選擇的評估標準來比較每個候選演算法在資料集上的表現
step 4:特徵工程
常見的選取資料特徵的方法:
(1)自動選取
主成分分析(pca):一種線性降維方法,可以找出包含資訊量較高的特徵主成分,可以解釋資料
中的大多數方差。(目前自己接觸用的比較多的方法)
(2)人工干預 (使用交叉驗證的準則來移除和增加特徵)
法 1)a.最開始不選取任何特徵
b.然後選擇最相關的特徵,將這個特徵加入到已有特徵;計算模型的交叉驗證誤差,重複選
取其它所有候選特徵;最後,選取能使你交叉驗證誤差最小特徵,並放入已選擇的特徵之中
c.重複,直到達到期望數量的特徵為止
法 2 ) a.從所有特徵開始
b.先移除最不相關的特徵,然後計算模型的交叉驗證誤差;對其它所有候選特徵,重複這一
過程;最後,移除使交叉驗證誤差最大的候選特徵
c.重複,直到達到期望數量的特徵為止
step 5: 優化超引數
優化演算法的超引數:例如,主成分分析中的主成分個數,k 近鄰演算法的引數 k,或者是神經網路中的層數
和學習速率。最好的方法是使用交叉驗證來選擇。
資料探勘中機器學習如何選擇合適的演算法
最近看了一些資料,許多細的知識在這裡總結一下,入門者也可以作為乙個參考,關於在資料探勘中我們應該選擇哪種演算法。當然這個問題我在前面的一篇文章中已經有過介紹 官方小紙條,這個參考性是可靠的。這裡的介紹作為乙個更為詳細的補充和說明。補充下面四個小知識 監督學習 利用樣本輸入和期望輸出來學習如何 的技術...
機器學習處理問題如何選擇乙個合適的演算法?
我們在進行資料分析或者資料探勘工作的時候,總會遇到很多的問題,而解決這些問題的方式有很多。如果需要我們用機器學習來處理,那麼就需要我們根據演算法去選擇乙個合適的演算法。但問題是,用機器學習處理問題,該如何選擇乙個合適的演算法呢?下面我們就給大家介紹一下選擇演算法的流程,希望這篇文章能夠更好地幫助大家...
機器學習解決問題的流程
了解場景和目標 對要解決的問題做具體分析,理解業務場景,這種場景中的常用模型。了解評估準則 最終的目標是從準確率還是召回率方向 打個比方 做為模型的評估標準認識資料 了解資料是否平衡,型別,結構,關聯關係資料預處理 清洗,調權 型別轉化,缺失值處理,標準化或者歸一化,one hot 資料本身的質量優...