機器學習中的通用工作流程

2021-10-24 22:28:02 字數 494 閱讀 8398

想**什麼?

有哪些資料可用?

是否需要收集更多的資料?

是否需要人工標註?

尋找能夠可靠評估目標成功的方法。

為任務設計不同的評價指標,如針對簡單任務,可以用**精度。

準備用於評估模型的驗證過程,即定義訓練集、驗證集、測試集。

驗證集和測試集的標籤不應洩露到訓練資料中。如針對時序**,驗證資料和測試資料的時間都應在訓練資料之後。

將資料轉化為向量並預處理(如標準化),使其更容易被神經網路所處理。

設立基準,如基於常識的基準。開發模型並打敗基準,從而表明機器學習能解決你的問題。

通過調節超引數和新增正則化來逐步改進模型架構。

僅根據模型在驗證集(而不是訓練集或測試集)上的效能來進行修改。

應該先讓模型過擬合,從而找到比你的需求更大的模型容量,然後才開始新增正則化或降低模型尺寸。

調節超引數時要小心驗證集過擬合,即超引數可能會過於針對驗證集而優化。保留的測試集正是為了解決這個問題。

機器學習的通用工作流程

1.定義問題,收集資料集首先,你必須定義所面對的問題,只有擁有可用的訓練資料,你才能學習 某件事情。因此,資料可用性通常是這 階段的限制因素。其次,你面對的是什麼型別的問題?是二分類問題 多分類問題 標量回歸問題 向量回歸問題,還是多分類 多標籤問題?或者是其他問題,比如聚類 生成或強化學習?確定問...

方法 機器學習 深度學習 通用工作流程

deep learning with python 4.5節 首先,你必須定義你手頭的問題 當然,這僅僅只是假設,直到你有乙個確切的模型,這些假設才能被驗證或者被否定。並非所有問題都能解決。只是因為你僅僅收集了一些輸入x和目標y,這並不意味著x包含足夠的資訊去 y。舉個例子,如果你試圖通過 的歷史 ...

機器學習的工作流程

打造乙個機器學習的應用程式,從工作流程方面熟悉整體的步驟,對後面深入學習有很大的幫助。整個過程有六個步驟 機器學習中的資料,可以來自不同的資料來源,可能是csv檔案,也可能是從伺服器拉取出來的日誌,或者是自己構建的web爬蟲。獲取了資料,下一步進行合理地檢查資料,最好的方法是發現不可能或幾乎不可能的...