5折交叉驗證 模型評估之K折交叉驗證

2021-10-12 22:05:21 字數 602 閱讀 4379

上節我們說了留出法,這次說下k折交叉驗證,這是我們做模型評估時經常使用的方法。

k折交叉驗證的3個要點:

1:資料集劃分為k個相同大小的互斥子集。

2:通過分層抽樣k個子集保持分布一致性。

3:k次評估結果的均值,每次用k-1個集合訓練,剩下的乙個做模型評估。

上述例子中共有樣本10個,我們做了5折交叉驗證,看下測試集索引,所有樣本集的並集就是整個樣本集了,訓練集與當前測試集的並集也是整個樣本集,其實就是每次用其中把本樣本做為訓練集,剩餘的兩個做為測試集,最終是用這5組樣本集訓練的模型進行效能評估的平均。

當k是樣本集大小時就是:留一法。也就是每次只有乙個樣本做為驗證集,留一法評估結果一般比較準確,就是當樣本集太大時太耗時,所以一般很少用到留一法,這裡就不多介紹了。

k折交叉驗證

在做機器學習這方面研究的時候,例如pcr和pls等演算法時常會遇到最佳潛變數的選取,神經元個數的選取 這些引數的選取對模型的質量產生極大的影響。如果人為選取,這樣是十分不可靠的也是不現實的。進行交叉驗證是乙個優秀模型形成必不可少的過程。交叉驗證的目的是為了得到更為穩健可靠的模型。交叉驗證的方法有許多...

K折交叉驗證

k 層交叉檢驗之後,我們得到 k 個不同的模型誤差估算值 e1,e2 ek 理想的情況是,這些誤差值相加得 0 要計算模型的偏誤,我們把所有這些誤差值相加。平均值越低,模型越優秀。模型表現變化程度的計算與之類似。取所有誤差值的標準差,標準差越 明模型隨訓練資料的變化越小。from sklearn i...

K折交叉驗證 (cv)

之前一直理解錯了 我知道k折交叉驗證是在模型選擇過程 model selection 中用來評估候選模型的。把整個訓練集分成k份,一共進行k次評估,每次用k 1份訓練,用1份來驗證。之前以為這k次是對同乙個模型迭代訓練的,其實不是!其實是產生了k個模型,對他們的誤差取平均,來評估你選擇的模型好不好,...