對於機器學習專案的流程是

2021-08-28 20:35:47 字數 437 閱讀 2386

1、先抽象成數學問題,指的是我們可以獲得什麼樣的資料,目標是乙個分類還是回歸,或者聚類的問題,如果都不是,劃歸為某類問題

2、獲取資料 資料決定了機器學習的上限,而演算法只是盡可能的逼近這個上限,要對資料的量級有乙個評估,多少個樣本,多少個特徵,可以估算出對記憶體的消耗程度,判斷訓練過程中記憶體是否放得下,如果放不下,就考慮改進演算法或者用降維的技巧,如果放不下,要考慮分布式

3、特徵預處理與特徵選擇

特徵預處理、資料清洗是很關鍵的一步,往往可以使演算法的效率提高,歸一化,離散化,因子化,缺失值處理,去除共線性,篩選出顯著的特徵,特徵選擇

4、訓練模型與調優

5、模型診斷

是否是欠擬合或者是過擬合,常見的方法如交叉驗證,繪製學習曲線,過擬合的基本思想是增加資料量,降低模型複雜度,欠擬合提高特徵數量和質量,增加模型複雜度。

6、模型融合

7、上線執行

完整機器學習專案的流程

1 抽象成數學問題 明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情,胡亂嘗試時間成本是非常高的。這裡的抽象成數學問題,指的明確我們可以獲得什麼樣的資料,抽象出的問題,是乙個分類還是回歸或者是聚類的問題。2 獲取資料 資料決定了機器學習結果的上限,而演算法只是盡可能逼近這...

機器學習專案的一般流程

將實際問題抽象為機器學習能處理的數學問題,理解實際業務場景問題是機器學習的第一步。機器學習的特徵工程和模型訓練通常都是一件非常耗時的過程,胡亂嘗試時間成本是非常高的。深入理解要處理的問題,能避免走很多彎路。理解問題,包括明確可以獲得什麼樣的資料,機器學習的目標是乙個分類 回歸還是聚類。如果都不是的話...

機器學習專案的步驟

一 import the data 引入資料 這些資料是通常以.csv結尾的檔案,要構建乙個擁有大量資料的資料庫 二 clean the data 包括去除一些重複資料或不相干資料 對不完整資料的修復或刪除,保證最後訓練模型的準確性 三 split the data into training te...