中心趨勢度量和度量資料散布

2021-07-03 07:52:33 字數 2080 閱讀 5678

一 中心趨勢度量

中心趨勢度量主要包括:均值,中位數,眾數,中列數

例:屬性salary(單位千美元),以遞增方式排列:30,31,47,50,52,52,56,60,63,70,70,110

1:均值

資料集中心最常用,最有效的數值度量是(算術)均值

對於上面的例子:均值為58

在上面這個例子中,所有的值價值都是均等的,但是有的時候,每個資料的價值並不均等,因此需要為每個資料賦予不同的權重wi,

在這種情況下,我們可以計算

但是均值對於離群點非常敏感,幾個極端資料就會使得均值遠遠偏離資料的「中心」,所以有時候使用截尾均值

截尾均值:丟棄高低端的部分極值點之後的均值,一般丟棄高階和低端的2%,應避免丟棄太多,以免失去了有價值的資料

2:中位數

中位數是基於資料有序的基礎上的,如果數值個數為奇數,則中位數有乙個,如果數值個數偶數,則中位數取中間兩個值的均值或者這兩個值中間的任意乙個值

在上例中,取中間兩個數52,56,得中位數54

但是,計算中位數開銷很大,當資料量很大時,我們可以採用別的方法近似的估計中位數大小

假定資料可以根據各自的值劃分為區間,並且知道每個區間的資料個數

例如:可以根據年薪將人劃分為10000—20000、20000—30000.令包含中位數的那個區間為中位數區間。

我們可以使用如下公式,使用插值計算中位數

l1是中位數所在區間的下界,n是整個資料集資料個數,freq(median)是中位數區間資料個數,freq的加和是除了中位數區間外其餘區間的個數總和,width是中位數區間的寬度

3:眾數

眾數:顧名思義,就是資料集出現的最多的那個數,出現的最頻繁的那個數,如果每個資料度只出現一次的話,則這個資料集沒有眾數。

對於適度傾斜(非對稱)的單峰數值資料,有下面的經驗關係:

mean - mode = 3*(mean - median)

這意味著:如果均值和中位數已知的話,適度傾斜(非對稱)的單峰數值曲線的眾數容易近似計算

4:中列數

中列數是資料集的最大和最小值的平均值

二 度量資料散布

度量資料散布一般使用:極差,四分位數,方差,標準差和四分位數極差

1:極差

即資料集中最大值與最小值之差 range = max - min

2:分位數

q分位數:有q-1個數值,將資料集平等的分為q個大小基本相等的資料區域

給定資料分布的第k個q-分位數的值為x,使得小於x的資料值最多為k/q個,最流行的分位數為中位數(二分位數),四分位數,百分位數

拿四分位數說事:第乙個四分位數為q1,第二個四分位數為q2,第三個四分位數為q3

四分位數極差iqr = q3 - q1; iqr是散布的一種簡單度量,它給出被資料的中間一半所覆蓋的範圍

挑選可疑的離群點的通常規則是,挑選落在q3之後,q1之前至少1.5*iqr的距離的值

而分布的最完整概括還可以加上max 和 min

3:方差和標準差

標準差:意味著資料的波動水平,即資料離均值的平均距離的度量

方差是:

標準差是方差的平方根

乙個觀測值一般不會遠離均值超過標準差的數倍,大型資料庫中方差和標準差的計算是可伸縮的

度量資料到底度量了誰,誰又該去度量

前些日子聽同事說,部門做了個工具平台,可以度量每個開發人員所負責模組的ut情況,很感興趣這個平台是如何度量的,於是要了工具的 準備上去一 竟。登上平台胡亂看了兩眼,我已經對這個所謂的開發測試能力度量系統失去了信心 我所熟悉的乙個模組,由於系統比較特殊當前實際上並沒有在 提交環節做ut測試,然而,平台...

距離和相似度量

在資料分析和資料探勘的過程中,我們經常需要知道個體間差異的大小,進而評價個體的相似性和類別。最常見的是資料分析中的相關分析,資料探勘中的分類和聚類演算法,如k最近鄰 knn 和k均值 k means 當然衡量個體差異的方法有很多,最近查閱了相關的資料,這裡整理羅列下。為了方便下面的解釋和舉例,先設定...

商務統計 8 數值描述度量 集中趨勢

目錄 頻數分布僅對資料作了簡單的概括,丟失了大量資訊。統計圖能直觀展示資料,但需要更有說服力的資訊支援,因此需要更多的統計方法。1.眾數 單眾 雙眾 多眾 無眾 一組資料 現次數最多的變數值,用m om o mo 表示。通常用來近似反映社會經濟現象的一般水平。如某次考試成績最集中的水平 城鎮居民最普...