機器學習系統設計(三)

2021-08-09 19:30:35 字數 338 閱讀 9628

機器學習的資料

假設特徵變數x∈rn+1,且有足夠的資訊可以測試精確地**y的值。

在使用含有非常多的引數的學習演算法(如:含非常多的特徵變數的線性回歸或者邏輯回歸;隱藏層啟用單元數非常多的神經網路)時,其可以保證低偏差,即不會出現欠擬合問題,以及其jtrain(θ)的值也非常小。

在此基礎上,我們使用非常大的訓練集。由於訓練集數量大於特性變數,其不太可能出現過擬合問題,即保證低方差,以及jtrain(θ) ≈ jtest(θ)。

因此,我們可以認為當特徵變數x∈rn+1且有足夠的資訊時,使用非常大的訓練集(即mtrain >> n),其jtest(θ)的值將非常小,可以保證其演算法為低偏差-方差。

入門機器學習 十一 機器學習系統的設計

1.誤差分析 error analysis 當研究機器學習時,最好的方法不是使用複雜的系統,而是用簡單的演算法,最快得到結果。即便執行不完美,但是也要執行一遍,最後通過交叉驗證來驗證資料。一旦做完,可以畫出學習曲線,通過畫出學習曲線,以驗證檢驗誤差來判斷演算法是否具有高偏差或者高方差的問題。在分析之...

從 0 開始機器學習 機器學習系統的設計

建議先花點時間實現乙個簡單能用的演算法,比如線性回歸 房價,不需要一開始就花很多時間設計複雜的演算法 在軟體開發中叫避免過早優化 你可以先實現能用的演算法,然後利用上篇文章從 0 開始機器學習 機器學習演算法診斷中的學習曲線等診斷法來分析演算法的優化方向,這樣乙個簡單的演算法就成為了優化問題的好工具...

機器學習系統設計和診斷方法學習總結

過擬合 對訓練資料擬合精準,但是對未知的資料 能力差 如何應對?2 丟棄一些不能幫助正確 的特徵。2.1 手工選擇丟棄特徵 2.2 使用模型選擇方法 如pca 3 正則化。保留所有的特徵,減少引數的大小 預防過擬合的方法步驟 1 打亂資料集 2 劃分資料 70 訓練集 30 測試集 幫助模型選擇的方...