機器學習專案清單

2021-09-29 14:44:30 字數 1103 閱讀 9999

開頭註明:內容大部分來自機器學習實戰:基於scikit-learn和tensorflow

一、架構問題,關注藍圖

1.定義當前目標

2.思考解決方案

3.是否可以重用他人的經驗與工具

4.盡可能獲取幫助

二、獲取資料

1.列出資料及其體量

2.查詢並記錄獲取資料的途徑

3.檢查需要的空間

4.檢查法律義務,必要時獲取授權

5.獲取訪問許可權

6.建立工作空間

7.獲取資料

8.將資料轉化為可操作的格式(不改變資料本身)

9.確保刪除或保護敏感資訊(如,匿名)

10.檢查資料的型別和大小

三、研究資料以獲得靈感

1.建立副本用於研究

2.時刻記錄

3.研究每個屬性及其特徵(名稱、型別、缺失、雜訊)

4.對於監督任務,確認目標屬性

5.視覺化資料

6.研究屬性之間的相關性

7.確定可能有用的額外資料

四、準備資料

1.資料清理(修復或刪除異常值、填充缺失值)

2.特徵選擇

3.處理特徵(如離散連續特徵、分解特徵、新增期望的特徵轉換)

五、研究各種不同的模型,並列出最好的模型

1.使用標準引數,從不同類別快速訓練不成熟的模型

2.測試比較效能(nfold)

3.分析每個演算法最重要的變數

4.分析模型的錯誤型別

5.快速進行特徵選擇和處理

6.對上述五步多次迭代後選擇三到五個最有希望的模型

六、微調模型,並將其組合為更好的解決方案

1.這一步盡可能多使用資料,盡可能自動化

2.使用交叉驗證微調超引數(網格搜尋)

3.嘗試組合方法

4.在測試集上測試效能

七、提出解決方案

1.展示工作、突出藍圖

2.介紹有趣的地方

3.介紹模型假設和系統的侷限性

八、啟動、監視、維護系統

1.準備好生產環境的解決方案

2.編寫監控**,定期檢查效能,出問題及時解決

3.定期對新資料重新建模

機器學習專案流程清單

這份列表可以知道你部署自己的機器學習專案。總共有八個步驟 首先你要有乙個要解決的問題 獲取解決問題需要的資料 探索資料,對資料有乙個清楚的理解 預處理資料以便更好地輸入給機器學習演算法 探索不同的模型並且找到最好的那個 調整你的模型引數,並將這些引數組合成乙個更好的解決方案 展示你的結果 對你的系統...

機器學習專案清單 機器學習實戰

摘自 機器學習實戰 基於sklearn keras和tensorflow 第2版 附錄b中的機器學習專案清單,用於自查 4.對於有監督學習任務,請確定目標屬性。5.視覺化資料。6.研究屬性之間的相關性。7.研究如何手動解決問題。8.確定你可能希望使用的轉變。9.確定有用的額外資料。10.記錄所學的知...

《機器學習實踐》程式清單2 2

將文字記錄轉換為numpy的解析程式 def file2matrix filename print 讀入檔案 str filename 以下兩行為開啟文字檔案並讀取內容到陣列,有沒有發現這個操作好簡單?fr open filename arrayolines fr.readlines 把檔案中的文字...