結構化機器學習專案

2021-09-07 21:17:19 字數 1589 閱讀 3777

機器學習(ml)策略(2)

參考鏈結

deeplearning.ai的第三課:structuring machine learning projects.講解了如何從誤差角度分析改善模型,如何劃分訓練驗證測試集,設定優化目標,偏差方差分析,資料不匹配問題,遷移學習和多工學習,端到端學習的優缺點.

原載於

chain of assumptions in ml(orthogonalization正交化):

訓練集上表現好?(可加大網路結構或用更好優化演算法)

驗證集上表現好?(正則化或加大訓練集)

測試集上表現好?(加大驗證集)

真實資料上表現好?(驗證集設定不正確或損失函式不正確)

單一數字評估指標 (方便比較演算法優劣)

滿足(satisficing)的指標的優化(optimizing)的指標

選擇驗證/測試集分布反映未來真實資料或期望優化的資料

驗證/測試集劃分大小

training set

development set

test set

98%1%

1%何時改變驗證/測試集大小和評價指標

為什麼是人類水平?(若分類器比人類表現差該怎麼辦)

理解人類表現

提高模型表現技巧

誤差分析:人工分析錯誤**,統計不同錯誤型別佔總數百分比,優先解決錯誤率最大

深度學習演算法對訓練集隨機誤差(偶爾標記錯誤)具有魯棒性,對系統誤差(一直標記錯誤)無魯棒性.驗證集標記錯誤若嚴重影響評估演算法能力,則需修正.驗證集目標是幫助選擇演算法a & b.

基本準則: 快速建立第乙個系統,然後迭代優化.

在不同劃分(使dev和test來自同一分布)上訓練和測試

資料不匹配問題:

解決資料不匹配問題:收集更多像驗證集的資料,或人工合成資料,但要避免從所有可能性的空間中只選了一小部分去模擬資料,造成過擬合人工合成的資料

遷移學習起作用當

多工學習起作用當:

優點:

缺點:

應用端到端深度學習

關鍵問題: 你有足夠的資料去學習從x對映到y的複雜性嗎?

深度學習(吳恩達 ) 結構化機器學習

一 關於訓練誤差分析 二 關於錯誤的標註資料 背景 深度網路隨機誤差魯棒性高,系統性誤差魯棒性低。機制 抽樣分析誤差分布,focus 最主要的誤差部分。方針 1.開發集和測試集需要同時修正 2.好壞都要關注 3.訓練集可以有部分差異,同dev和testtest 吳 重視對訓練誤差樣本的統計分析,幫助...

結構化 半結構化和非結構化資料

在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化資料 ...

結構化 半結構化和非結構化資料

在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis。mangodb rdbms關聯式資料庫 oracle,mysql等 另一些其他的資料庫如hbase,在這些資料庫中。又會出現結構化資料。非結構化資料。半結構化資料,以下列出各種資料型別 結構化資料 可...