機器學習(ml)策略(2)
參考鏈結
deeplearning.ai的第三課:structuring machine learning projects.講解了如何從誤差角度分析改善模型,如何劃分訓練驗證測試集,設定優化目標,偏差方差分析,資料不匹配問題,遷移學習和多工學習,端到端學習的優缺點.
原載於chain of assumptions in ml(orthogonalization正交化):
訓練集上表現好?(可加大網路結構或用更好優化演算法)
驗證集上表現好?(正則化或加大訓練集)
測試集上表現好?(加大驗證集)
真實資料上表現好?(驗證集設定不正確或損失函式不正確)
單一數字評估指標 (方便比較演算法優劣)
滿足(satisficing)的指標的優化(optimizing)的指標
選擇驗證/測試集分布反映未來真實資料或期望優化的資料
驗證/測試集劃分大小
training set
development set
test set
98%1%
1%何時改變驗證/測試集大小和評價指標
為什麼是人類水平?(若分類器比人類表現差該怎麼辦)
理解人類表現
提高模型表現技巧
誤差分析:人工分析錯誤**,統計不同錯誤型別佔總數百分比,優先解決錯誤率最大
深度學習演算法對訓練集隨機誤差(偶爾標記錯誤)具有魯棒性,對系統誤差(一直標記錯誤)無魯棒性.驗證集標記錯誤若嚴重影響評估演算法能力,則需修正.驗證集目標是幫助選擇演算法a & b.
基本準則: 快速建立第乙個系統,然後迭代優化.
在不同劃分(使dev和test來自同一分布)上訓練和測試
資料不匹配問題:
解決資料不匹配問題:收集更多像驗證集的資料,或人工合成資料,但要避免從所有可能性的空間中只選了一小部分去模擬資料,造成過擬合人工合成的資料
遷移學習起作用當
多工學習起作用當:
優點:
缺點:
應用端到端深度學習
關鍵問題: 你有足夠的資料去學習從x對映到y的複雜性嗎?
深度學習(吳恩達 ) 結構化機器學習
一 關於訓練誤差分析 二 關於錯誤的標註資料 背景 深度網路隨機誤差魯棒性高,系統性誤差魯棒性低。機制 抽樣分析誤差分布,focus 最主要的誤差部分。方針 1.開發集和測試集需要同時修正 2.好壞都要關注 3.訓練集可以有部分差異,同dev和testtest 吳 重視對訓練誤差樣本的統計分析,幫助...
結構化 半結構化和非結構化資料
在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化資料 ...
結構化 半結構化和非結構化資料
在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis。mangodb rdbms關聯式資料庫 oracle,mysql等 另一些其他的資料庫如hbase,在這些資料庫中。又會出現結構化資料。非結構化資料。半結構化資料,以下列出各種資料型別 結構化資料 可...