誤差分析
(1)構建乙個學習演算法的推薦方法
從乙個簡單的能快速實現的演算法開始,實現該演算法並用交叉驗證集資料測試這個演算法
繪製學習曲線,決定是增加更多資料,或者新增更多特徵,還是其他選擇
進行誤差分析:人工檢查交叉驗證集中我們演算法中產生**誤差的例項,看看這些例項是否有某種系統化的趨勢
(2)誤差分析作用
誤差分析並不一定能判斷應該採取怎樣的行動。但通過嘗試不同的模型並比較後,能用數值來判斷哪乙個模型更好更有效,通常是看交叉驗證集的誤差。
類偏斜的誤差度量
對於類偏斜的問題,誤差的大小是不能視為評判演算法效果的依據的。常採用查準率(precision)和召回率(recall)來判斷。
查準率=tp/(tp+fp)
召回率=tp/(tp+fn)
其中:tp–真陽性(true positive);tn-- 真陰性(true negative,tn);fp-- 假陽性(false positive);fn-- 假陰性(false negative)
查準率和召回率之間的權衡
對某個特定的問題高查準率對應低的召回率,低的查準率對應高的召回率。理想情況是查準率和召回率都越高越好,這使得權衡兩者之間的取值。
一般建議:根據實際情況具體的分析。
常用的判斷方法是:計算f1值:f1 score = 2*pr/(p+r),其中p是查準率,r是召回率
機器學習的資料
通過大量的資料並在特定型別的學習演算法中進行訓練,可以有效的獲得良好效能的學習演算法。這些條件是:
(1)使用訓練集樣本m很大,特徵n也很大,m》n,那麼這些演算法就不太可能會過度擬合。也就是說訓練誤差有希望接近測試誤差。
(2)為了有乙個高效能的學習演算法,但又不能有高偏差和高方差。這種偏差問題,通過確保有乙個具有很多引數的學習演算法來解決,這就需要用非常大的訓練集來保證。
吳恩達機器學習筆記
為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...
吳恩達機器學習感悟
吳恩達機器學習,斯坦福2014筆記 由8.2 神經元和大腦想到的 神經重連實驗,比如眼睛連到聽覺皮層,則聽覺皮層學會了看 眼睛連到觸覺皮層,則觸覺皮層學會了看 舌頭上加攝像頭關聯的電極陣列,則負責舌頭感知的皮層學會了看。這寫neuron re wiring實驗,給出的結論是大腦各區使用的是同一種演算...
吳恩達機器學習筆記
sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...