今天來聊一下統計學中用於檢測異常值的「3σ準則」
什麼叫3σ準則
呢?其實它是用來粗略檢測異常值的一種方法,類似的還有「1σ準則」
和「2σ準則」
,下面進行具體說明。
在統計學中,如果乙個變數服從正態分佈,且它的均值是u
uu,標準差是σ
σσ,那麼將有:
(1)68%的資料會落在 u
uu ± σ 內,即資料分布在處於(u−σ
u-σu−
σ, u+σ
u+σu+
σ)中的概率是0.68
(2)95%的資料會落在 u
uu ± 2σ 內,即資料分布在處於(u−2
σu-2σ
u−2σ
, u +2
σu+2σ
u+2σ
)中的概率是0.95
(3)99%的資料會落在 u
uu ± 3σ 內,即資料分布在處於(u−3
σu-3σ
u−3σ
, u +3
σu+3σ
u+3σ
)中的概率是099
所以當有乙個資料落在均值(u
uu) ± 三倍標準差(3σ) 外,我們可以初步把它看作是異常資料,這是因為資料落在均值(u
uu) ± 三倍標準差(3σ) 外的概率只有1%,這種小概率的事件都發生了,我們就認為這個資料不是乙個正常資料,換言之,它是乙個異常資料。
tips:即使不是資料不服從正態分佈,那麼也有89%的資料落在均值的三個標準差範圍內(出處忘記在哪了)
「3σ準則」
雖然簡單,卻可以粗略的檢測異常資料,其他的相對複雜異常檢測方法還有pca法
、相似度法
以及孤立森林
等,後面再寫一篇部落格進行具體介紹。但是如果對精確要求不高,還是首選「3σ準則」
,畢竟我們要遵守「奧卡姆剃刀原理」,即「如無必要,勿增實體」
一天乙個統計小知識 辛普森悖論
辛普森悖論是在說 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。怎麼理解這句話呢?下面使用乙個小例子來進行具體宣告。例子 鵝廠為了比較英雄聯盟和王者榮耀這兩款遊戲哪個更受歡迎,分別抽取了1000個男生和1000個女生進行問卷調查,調查結果 假設英雄聯盟和...
一天乙個C 小知識
1.struct enum union三個關鍵字在c中定義比較麻煩,所以一般和typedef一塊出現,而c 中則不用 2.struct和union中可以定義函式,但是 2.1 struct和class用法完全相同,class有的功能它都用,唯一的區別在於當沒有指定成員的訪問許可權時,struct中預...
一天乙個小頁面(1)
2 介面 3 首先要用css實現乙個愛心的話,我是用乙個正方形 兩個半圓畫出來的。然後用css3動畫的animation實現跳動效果。用css寫的話效率高。css的 body wrap left,right left right bottom left,right,bottom keyframes ...