1. 提出問題:
2. 理解資料:
2.1 採集資料
2.2 匯入資料
2.3 檢視資料集資訊
3. 資料清洗
3.1 資料預處理
包括缺失值處理、重複值處理、資料型別的轉換、字串資料的規整
資料歸一化/標準化:
min-max,化為[0,1]:(x-min(x))/(max(x)-min(x))/preprocessing.minmaxscaler;適合分別在有限範圍內的資料,數值較集中,但min/max不穩定會影響結果
z-core,化為均值為0,方差為1:(x-mean(x))/std(x)/sklearn.preprocessing.scale(),適合最大/最小值未知,或者有超出取值範圍的離散值
3.2 特徵提取(特徵工程.1)(參考泰坦尼克專案)
分型別資料處理:
時間序列資料,一段時間定期收集的資料-可轉成年月日
3.3 特徵選擇(特徵工程.2)
根據相關係數的大小選擇特徵列做為模型輸入
4. 構建模型:
4.1 建立訓練資料集和測試資料集
4.2. 選擇機器學習演算法:
建立模型
訓練模型
5. 評估模型
6. 方案實施
7.報告撰寫
《機器學習實戰》筆記1 5 機器學習步驟
第一篇部落格,用來記錄 機器學習實戰 的學習筆記。從無序的資料中得到有序的資料 收集資料 爬蟲 公開資料來源 裝置輸入 血糖 頻率等 準備輸入資料 分析輸入資料 人工分析是否有缺失值 異常值等 如果資料 是可信任資料 或者在產品話系統中可略過此步驟 訓練演算法 在此步驟中機器學習才真正開始,是機器學...
PowerDesigner學習 基本步驟
資料庫最好從概念模型開始,概念模型中以實體為單位,可以比較清晰的反映實體間關係。需要特別注意的一點,在建立好乙個新的概念模型後,最好在model options中,將資料項的唯一 和允許重用兩個選項去掉。否則不同實體中的同名屬性會被認為是同乙個資料物件,改乙個另外的也會跟著改。大多數情況下都不需要這...
機器學習專案的步驟
一 import the data 引入資料 這些資料是通常以.csv結尾的檔案,要構建乙個擁有大量資料的資料庫 二 clean the data 包括去除一些重複資料或不相干資料 對不完整資料的修復或刪除,保證最後訓練模型的準確性 三 split the data into training te...