想**什麼?
有哪些資料可用?
是否需要收集更多的資料?
是否需要人工標註?
尋找能夠可靠評估目標成功的方法。
為任務設計不同的評價指標,如針對簡單任務,可以用**精度。
準備用於評估模型的驗證過程,即定義訓練集、驗證集、測試集。
驗證集和測試集的標籤不應洩露到訓練資料中。如針對時序**,驗證資料和測試資料的時間都應在訓練資料之後。
將資料轉化為向量並預處理(如標準化),使其更容易被神經網路所處理。
設立基準,如基於常識的基準。開發模型並打敗基準,從而表明機器學習能解決你的問題。
通過調節超引數和新增正則化來逐步改進模型架構。
僅根據模型在驗證集(而不是訓練集或測試集)上的效能來進行修改。
應該先讓模型過擬合,從而找到比你的需求更大的模型容量,然後才開始新增正則化或降低模型尺寸。
調節超引數時要小心驗證集過擬合,即超引數可能會過於針對驗證集而優化。保留的測試集正是為了解決這個問題。
機器學習的通用工作流程
1.定義問題,收集資料集首先,你必須定義所面對的問題,只有擁有可用的訓練資料,你才能學習 某件事情。因此,資料可用性通常是這 階段的限制因素。其次,你面對的是什麼型別的問題?是二分類問題 多分類問題 標量回歸問題 向量回歸問題,還是多分類 多標籤問題?或者是其他問題,比如聚類 生成或強化學習?確定問...
方法 機器學習 深度學習 通用工作流程
deep learning with python 4.5節 首先,你必須定義你手頭的問題 當然,這僅僅只是假設,直到你有乙個確切的模型,這些假設才能被驗證或者被否定。並非所有問題都能解決。只是因為你僅僅收集了一些輸入x和目標y,這並不意味著x包含足夠的資訊去 y。舉個例子,如果你試圖通過 的歷史 ...
機器學習的工作流程
打造乙個機器學習的應用程式,從工作流程方面熟悉整體的步驟,對後面深入學習有很大的幫助。整個過程有六個步驟 機器學習中的資料,可以來自不同的資料來源,可能是csv檔案,也可能是從伺服器拉取出來的日誌,或者是自己構建的web爬蟲。獲取了資料,下一步進行合理地檢查資料,最好的方法是發現不可能或幾乎不可能的...