在使用分類演算法的時候,通常需要去驗證分類演算法的準確性。
最簡單常用的方法就是將資料劃分成三部分:訓練集,驗證集,測試集。訓練集用於建立分類器,驗證集用於優化或調整分類器的引數,而測試集用於計算優化的分類器的誤差率。一旦誤差率確定,就可以將測試集合並到訓練集中,將由此產生的新分類器用於實踐。
上述方法在對於大資料集的時候可以採用,然而,如果資料集不是很大,那麼可以考慮將資料劃分為訓練集和測試集。實踐中,一般使用2/3的資料測試,1/3的資料驗證。
然而,有可能用於訓練的資料不具代表性。比如分類器將資料分成兩個類,而我們劃分的測試集恰巧只包含了乙個類的資料,而測試集包含了另乙個類的資料,顯然,這種情況下,一方面分類器有可能會過度擬合,另一方面,對於另乙個類由於缺少訓練而無法判斷。對於這種問題,最簡單的方法就是,隨機劃分訓練集和測試集,並進行多次測試。最後將每次迭代的誤差率求平均以得到最終的誤差率。
一種更為常見的統計學驗證方法是,使用交叉驗證。它先將資料分為幾拆,以3折為例,就是將資料平均分成3份。然後每次取3份中的2份做訓練,剩下的1份做測試,這樣重複3次。即三折交叉驗證。實踐中,10折交叉驗證被認為是標準方法。
測試級別和分類
ut unit test 1 測試 內側 2 測試 公測 3 uat測試 客戶派本公司人員進行使用測試 uat user acceeptance test 1 白盒測試 這種測試就是軟體的最底層 不在意外在的介面,只要求底層功能實現且邏輯正確 2 黑盒測試 指的是軟體外在的 可看到的 主體功能是否可...
測試分類器的正確率
對於分類器來說,錯誤率就是分類器給出的錯誤結果的次數初一測試資料的總數。完美分類器的錯誤率為0,錯誤率為1的分類器不會給出任何正確的結果。測試函式為 horatio 0.10 測試資料佔總資料的百分比 datingdatamat,datinglabels file2matrix datingtest...
線性分類器和非線性分類器
線性和非線性的區別 1.線性linear,指量與量之間按比例 成直線的關係,在數學上可以理解為一階導數為常數的函式 非線性non linear則指不按比例 不成直線的關係,一階導數不為常數。2.線性的可以認為是1次曲線,比如y ax b 即成一條直線 非線性的可以認為是2次以上的曲線,比如y ax ...