機器學習的基本步驟

2021-10-01 16:33:25 字數 726 閱讀 9782

1. 提出問題:

2. 理解資料:

2.1 採集資料

2.2 匯入資料

2.3 檢視資料集資訊

3. 資料清洗

3.1 資料預處理

包括缺失值處理、重複值處理、資料型別的轉換、字串資料的規整

資料歸一化/標準化:

min-max,化為[0,1]:(x-min(x))/(max(x)-min(x))/preprocessing.minmaxscaler;適合分別在有限範圍內的資料,數值較集中,但min/max不穩定會影響結果

z-core,化為均值為0,方差為1:(x-mean(x))/std(x)/sklearn.preprocessing.scale(),適合最大/最小值未知,或者有超出取值範圍的離散值

3.2 特徵提取(特徵工程.1)(參考泰坦尼克專案)

分型別資料處理:

時間序列資料,一段時間定期收集的資料-可轉成年月日

3.3 特徵選擇(特徵工程.2)

根據相關係數的大小選擇特徵列做為模型輸入

4. 構建模型:

4.1 建立訓練資料集和測試資料集

4.2. 選擇機器學習演算法:

建立模型

訓練模型

5. 評估模型

6. 方案實施

7.報告撰寫

《機器學習實戰》筆記1 5 機器學習步驟

第一篇部落格,用來記錄 機器學習實戰 的學習筆記。從無序的資料中得到有序的資料 收集資料 爬蟲 公開資料來源 裝置輸入 血糖 頻率等 準備輸入資料 分析輸入資料 人工分析是否有缺失值 異常值等 如果資料 是可信任資料 或者在產品話系統中可略過此步驟 訓練演算法 在此步驟中機器學習才真正開始,是機器學...

PowerDesigner學習 基本步驟

資料庫最好從概念模型開始,概念模型中以實體為單位,可以比較清晰的反映實體間關係。需要特別注意的一點,在建立好乙個新的概念模型後,最好在model options中,將資料項的唯一 和允許重用兩個選項去掉。否則不同實體中的同名屬性會被認為是同乙個資料物件,改乙個另外的也會跟著改。大多數情況下都不需要這...

機器學習專案的步驟

一 import the data 引入資料 這些資料是通常以.csv結尾的檔案,要構建乙個擁有大量資料的資料庫 二 clean the data 包括去除一些重複資料或不相干資料 對不完整資料的修復或刪除,保證最後訓練模型的準確性 三 split the data into training te...