一天乙個統計小知識 3 準則

2021-10-07 18:13:00 字數 1101 閱讀 5219

今天來聊一下統計學中用於檢測異常值的「3σ準則」

什麼叫3σ準則呢?其實它是用來粗略檢測異常值的一種方法,類似的還有「1σ準則」「2σ準則」,下面進行具體說明。

在統計學中,如果乙個變數服從正態分佈,且它的均值是u

uu,標準差是σ

σσ,那麼將有:

(1)68%的資料會落在 u

uu ± σ 內,即資料分布在處於(u−σ

u-σu−

σ, u+σ

u+σu+

σ)中的概率是0.68

(2)95%的資料會落在 u

uu ± 2σ 內,即資料分布在處於(u−2

σu-2σ

u−2σ

, u +2

σu+2σ

u+2σ

)中的概率是0.95

(3)99%的資料會落在 u

uu ± 3σ 內,即資料分布在處於(u−3

σu-3σ

u−3σ

, u +3

σu+3σ

u+3σ

)中的概率是099

所以當有乙個資料落在均值(u

uu) ± 三倍標準差(3σ) 外,我們可以初步把它看作是異常資料,這是因為資料落在均值(u

uu) ± 三倍標準差(3σ) 外的概率只有1%,這種小概率的事件都發生了,我們就認為這個資料不是乙個正常資料,換言之,它是乙個異常資料。

tips:即使不是資料不服從正態分佈,那麼也有89%的資料落在均值的三個標準差範圍內(出處忘記在哪了)

「3σ準則」雖然簡單,卻可以粗略的檢測異常資料,其他的相對複雜異常檢測方法還有pca法相似度法以及孤立森林等,後面再寫一篇部落格進行具體介紹。但是如果對精確要求不高,還是首選「3σ準則」,畢竟我們要遵守「奧卡姆剃刀原理」,即「如無必要,勿增實體」

一天乙個統計小知識 辛普森悖論

辛普森悖論是在說 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。怎麼理解這句話呢?下面使用乙個小例子來進行具體宣告。例子 鵝廠為了比較英雄聯盟和王者榮耀這兩款遊戲哪個更受歡迎,分別抽取了1000個男生和1000個女生進行問卷調查,調查結果 假設英雄聯盟和...

一天乙個C 小知識

1.struct enum union三個關鍵字在c中定義比較麻煩,所以一般和typedef一塊出現,而c 中則不用 2.struct和union中可以定義函式,但是 2.1 struct和class用法完全相同,class有的功能它都用,唯一的區別在於當沒有指定成員的訪問許可權時,struct中預...

一天乙個小頁面(1)

2 介面 3 首先要用css實現乙個愛心的話,我是用乙個正方形 兩個半圓畫出來的。然後用css3動畫的animation實現跳動效果。用css寫的話效率高。css的 body wrap left,right left right bottom left,right,bottom keyframes ...