結構化機器學習專案

機器學習(ml)策略(2)

參考鏈結

deeplearning.ai的第三課:structuring machine learning projects.講解了如何從誤差角度分析改善模型,如何劃分訓練驗證測試集,設定優化目標,偏差方差分析,資料不匹配問題,遷移學習和多工學習,端到端學習的優缺點.

原載於

chain of assumptions in ml(orthogonalization正交化):

訓練集上表現好?(可加大網路結構或用更好優化演算法)

驗證集上表現好?(正則化或加大訓練集)

測試集上表現好?(加大驗證集)

真實資料上表現好?(驗證集設定不正確或損失函式不正確)

單一數字評估指標 (方便比較演算法優劣)

滿足(satisficing)的指標的優化(optimizing)的指標

選擇驗證/測試集分布反映未來真實資料或期望優化的資料

驗證/測試集劃分大小

training set

development set

test set

98%1%

1%何時改變驗證/測試集大小和評價指標

為什麼是人類水平?(若分類器比人類表現差該怎麼辦)

理解人類表現

提高模型表現技巧

誤差分析:人工分析錯誤**,統計不同錯誤型別佔總數百分比,優先解決錯誤率最大

深度學習演算法對訓練集隨機誤差(偶爾標記錯誤)具有魯棒性,對系統誤差(一直標記錯誤)無魯棒性.驗證集標記錯誤若嚴重影響評估演算法能力,則需修正.驗證集目標是幫助選擇演算法a & b.

基本準則: 快速建立第乙個系統,然後迭代優化.

在不同劃分(使dev和test來自同一分布)上訓練和測試

資料不匹配問題:

解決資料不匹配問題:收集更多像驗證集的資料,或人工合成資料,但要避免從所有可能性的空間中只選了一小部分去模擬資料,造成過擬合人工合成的資料

遷移學習起作用當

多工學習起作用當:

優點:

缺點:

應用端到端深度學習

關鍵問題: 你有足夠的資料去學習從x對映到y的複雜性嗎?

深度學習（吳恩達）結構化機器學習

一關於訓練誤差分析二關於錯誤的標註資料背景深度網路隨機誤差魯棒性高，系統性誤差魯棒性低。機制抽樣分析誤差分布，focus 最主要的誤差部分。方針 1.開發集和測試集需要同時修正 2.好壞都要關注 3.訓練集可以有部分差異，同dev和testtest 吳重視對訓練誤差樣本的統計分析，幫助...

結構化半結構化和非結構化資料

在實際應用中，我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached，redis，mangodb rdbms關聯式資料庫 oracle，mysql等還有一些其它的資料庫如hbase，在這些資料庫中，又會出現結構化資料，非結構化資料，半結構化資料，下面列出各種資料型別結構化資料 ...

結構化半結構化和非結構化資料

在實際應用中，我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached，redis。mangodb rdbms關聯式資料庫 oracle，mysql等另一些其他的資料庫如hbase，在這些資料庫中。又會出現結構化資料。非結構化資料。半結構化資料，以下列出各種資料型別結構化資料可...

結構化機器學習專案

深度學習（吳恩達 ） 結構化機器學習

結構化 半結構化和非結構化資料

結構化 半結構化和非結構化資料

相關推薦

深度學習（吳恩達）結構化機器學習

結構化半結構化和非結構化資料

結構化半結構化和非結構化資料