機器學習系統
傳統的軟體工程專案有著非常大的差異
產品經理-開發(前端和後端)-測試-運維
包含通用軟體工程裡那些單元測試,發布流程等內容
資料管理的難度-資料變更,資料是描述事物的,事物發生變化
資料需求方--資料開發方-資料運維方-資料使用方
數值穩定性
依賴變更推送--
ml和資料系統具有強耦合
多了資料依賴問題
天然的互動式、實驗性開發方式
機器學習pipeline一般會包括
訓練資料的收集,特徵生成,模型訓練,模型驗證,部署和服務發布等環節
良好的工程實踐
進行系統抽象
從總體上把控**模組結構,才能更好的平衡實驗的靈活性與系統開發效率,保證整體的高效運作
精心設計配置項
把資料清洗、特徵工程、模型訓練等模組
特徵工程
特徵工程**寫相應的測試
模型:模型說明記錄
模型超引數
模型優化指標
模型時效性
模型測試流程: 基準測試比較, 多版本模型效果推演,不同資料上的表現,模型的包容性測試
模型的快速復現:
機器學習pipeline的整合測試
模型發布和部署:
灰度發布的方式
模型能夠快速回滾-回滾演練
模型效能相關監控
短時間內明顯的指標急劇下降外,同時也要關注長期的緩慢的下降
the ml test score
hidden technical debt in machine learning systems
Python與R進行機器學習和資料分析
機器學習和資料分析是開源幾乎已成為創新新工具的事實上許可的兩個領域。python和r語言都開發了強大的開源工具和庫生態系統,可幫助任何技能水平的資料科學家更輕鬆地執行分析工作。機器學習和資料分析之間的區別有點不確定,但是主要思想是機器學習將 準確性優先於模型可解釋性,而資料分析則強調可解釋性和統計推...
機器學習基礎 資料分析
1 問題定義 2 資料獲取 3 資料預處理 4 資料分析與建模 5 資料視覺化及資料報告的撰寫 貢獻度分析又稱帕累託分析,它的原理是帕累託法則又稱2 8定律。即累積效應達80 的前幾個因素。用統計指針對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。1 集中趨勢度量 均值 中位數 眾數...
機器學習開放專案 NBA統計資料分析
本資料報括2004 2005 nba和aba統計資料 this download contains 2004 2005 nba and aba stats for 球員常規賽資料 player regular season stats 球員常規賽季職業生涯總進球數 player regular se...