在選擇合適的評估方法和相應的效能度量時,計算出效能度量後直接進行比較,會存在以下問題:
上述問題按照統計學的知識描述為:已知兩個模型 f1和f2 ,兩者的泛化效能在測試集上的表現不同, f1好於f2 ,請檢驗在統計意義上 f1 是否好於 f2 ?這個把握有多大?
用擲硬幣問題描述上述問題:
統計學家fisher先生和一位女士玩擲硬幣猜正反面的遊戲。女士號稱每次都能擲出正面,fisher先生根據自己的知識認為不可能。然而女士拿出一枚準備好的硬幣開始投擲後,果然連續n次的結果都是正面。fisher先生覺得有兩種可能,第一,這位女士運氣非常好,能連續擲出正面;第二,硬幣被做過手腳,無論誰擲都有很大的可能得到正面。到底是哪種原因呢?
在假設硬幣沒問題的情況下,投擲結果符合p=0.5的二項式分布:
第1次投擲,連續1次出現正面的概率為b(1;1,0.5)=0.5
第2次投擲,連續2次出現正面的概率為b(2;2,0.5)=0.25
第3次投擲,連續3次出現正面的概率為b(3;3,0.5)=0.125
第4次投擲,連續4次出現正面的概率為b(4;4,0.5)=0.0625
第5次投擲,連續5次出現正面的概率為b(5;5,0.5)=0.03125
第10次投擲,連續10次出現正面的概率為b(10;10,0.5)=0.000977
如果乙個事件發生的概率為5%,我們通常認為它是小概率事件
5%就是假設檢驗的p值,實際工作中看業務需求,有時候可能會取1%,甚至更小的數值
統計假設檢驗(hypothesis test):事先對總體的引數或者分布做乙個假設,然後基於已有
的樣本資料去判斷這個假設是否合理。即樣本和總體假設之間的不同是純屬機會變異(因為
隨機性誤差導致的不同),還是兩者確實不同。
常用的假設檢驗方法:
基本思想:
1.建立假設
根據具體的問題,建立假設:
原假設(null hypothesis):蒐集證據希望推翻的假設,記作h
0h_0
h0(假設硬幣沒有問題)
備擇假設(alternative hypothesis):蒐集證據予以支援的假設,記作h
1h_1
h1(假設硬幣有問題)
假設的形式:
只有小概率事件發生了,才拒接原假設,檢驗過程保護原假設
2.確定檢驗水準
檢驗水準(size of a test):又稱顯著性水平(significance level),記作α,是指原假設正確,但是最終被拒絕的概率。
在做檢驗的過程中,會犯兩種錯誤:
顯著水平α=0.05的意思是:在原假設正確的情況下進行100次抽樣,有5次錯誤的拒絕了原假設。
3.構造統計量
構造統計量:根據資料型別、研究設計方案和統計推斷的目的,選用適當檢驗方法和計算相應的統計量
常見檢驗方法:
4.計算p值
關於p值:
計算p值:假設原假設為真,可由樣本資料計算出統計量,根據統計量的具體分布求出p值
5.得到結論
如果p值小於等於顯著水平α,表明x小概率事件發生,拒絕原假設
統計量的值如果落在拒絕域內或者臨界值,則拒絕原假設,落在接受域則不能拒絕原假設
例1:二項式檢驗
例2:t檢驗
以一元線性回歸為例,可以使用假設檢驗作如下比較和推斷:
回歸方程的顯著性檢驗:y=β
0+β1
xy=β0+β1x
y=β0+β
1x相關係數的顯著性檢驗
模型的統計檢驗
研究從假設來,推導出了模型,就一定要用可靠的檢驗方法來驗證它的可靠性。常用的檢驗方法就是統計學檢驗,主要分為兩塊 擬合優度檢驗 模型顯著性檢驗 殘差平方和和什麼東西一除,就得到個擬合優度 r2 怎麼得來的百科裡面都有,書上也很容易能找到 總之這個 r2 是乙個在 0 1 之間的量,越接近1說明擬合得...
IOCP模型和EPOLL模型的比較
iocp模型與epoll模型的比較 iocp i o completion port 常稱i o完成埠。iocp模型屬於一種通訊模型,適用於 能控制併發執行的 高負載伺服器的乙個技術。通俗一點說,就是用於高效處理很多很多的客戶端進行資料交換的乙個模型。或者可以說,就是能非同步i o操作的模型。三 網...
星型模型和雪花型模型比較
一 概述 在多維分析的商業智慧型解決方案中,根據事實表和維度表的關係,又可將常見的模型分為星型模型和雪花型模型。在設計邏輯型資料的模型的時候,就應考慮資料是按照星型模型還是雪花型模型進行組織。當所有維表都直接連線到 事實表 上時,整個 就像星星一樣,故將該模型稱為星型模型,如圖 1 星型架構是一種非...