平均值 為什麼中位數大多數時候比平均值好

2021-10-16 04:38:57 字數 1941 閱讀 5539

開始我的資料分析冒險之旅,當然,我發現了解資料描述的主要統計方法是非常必要的。當我深入研究時,我意識到我很難理解為給定的資料選擇哪個集中趨勢指標。因為,當然,你知道,有三種:平均值,中位數和眾數。

所以我決定寫這篇文章來幫助像我一樣在這個領域裡的新人來弄明白這一點,而不是害怕資料和統計。這裡我們使用pandas和世界人口的資料來做說明。

首先,我們應該把資料用於探索。我在kaggle上找到了乙個很好的資料集:這個國家的統計資料。它代表了全世界所有國家的經濟、社會、基礎設施和環境指標。對於我們的研究,我們只需要這個資料框架中的三列:國家名稱、地理位置和人口。

現在我們可以進入我們的問題:我們應該使用哪種集中趨勢度量來研究資料,以及為什麼。

最簡單的部分是關於眾數(mode)。它只是行或列中所有值中最常見的值——僅此而已。這是資料中最"流行"的數字。

我們只對非數值使用眾數(mode)。為了找到它,我們必須計算乙個特定的單元出現在給定列中的頻率。結果最好的單位是我們正在尋找的眾數(mode)。

在我們的資料集中,我們只能對region列應用乙個關於眾數(mode)的問題,region列是表中唯一乙個有意義的列。因為在country列中所有的值都是不同的,而在population列中它們是數字。

我事先清理了這列資料,只留下了五大洲的名稱(取而代之的是南亞-亞洲等等)。

很好。這意味著大多數國家都位於非洲大陸。這並不奇怪,對吧?

現在讓我們轉到平均值和中值。這兩個值都顯示了行中心的數字。但方式不同。

平均值是乙個平均值(這好像是廢話),我們可以通過彙總一行中的所有值,然後將結果除以它們的數量來計算它。讓我們看看人口。為了計算平均值,我們應該將所有國家的人口值相加,然後除以資料集中的國家數。幸運的是,pandas可以為我們做這件事。

這個數字表明,在乙個正常的國家,平均生活著大約3300萬人。

中位數也顯示了乙個平均數。但它正好是行中間的值。如果我們將總體值從最小到最大排序,則在該排序行的中間位置,中值為:

根據中位數,乙個國家的平均人口只有大約550萬。根據平均數,它比平均人口要小得多。怎麼會這樣?

通常中位數和中位數是相當接近的。如果不是,那麼問題就出在異常值中—這些值與行中的所有其他值都非常不同。讓我們做乙個小圖形。

我們看到,大多數國家都集中在零附近。但有些數值與眾不同。雖然這些點很小,但我們可以看到其中一些點超過2億,其中兩個點接近10億4億。對於平均值的計算來說這些都是異常值 因為這就是均值的本質——把所有值都考慮在內。而中位數沒有這個缺點。

統計量的穩健性和有效性,以及實際運用時的計算複雜度這三點是資料統計中最重要的衡量標準

平均數是總體均值很好的估計,中位數是對總體中心很好的估計,如果資料是來自某對稱未知分布時,估計均值和估計中心是等價的,這時候中位數的效率要比均值低不少

就穩健性而言,顯然是中位數更好的,常見的衡量穩健性的指標是崩潰點,即能使統計量"失真"的最大比例,對於均值,只需要有乙個點離得無窮大,均值就會無窮大,但改變中位數至無窮大,你最多可以移動一半的資料,所以中位數要比均值穩健的多

最後是計算的複雜性,均值只需要求和除,但中位數,我的理解的話,至少要排個序吧,排序的複雜度應該比直接加要複雜一些,而且很多資料的樣本量都特別大,這時候計算均值要方便不少,所以為了簡單才會有很多使用平均值計算的情況。

最後:我們可以通過這三個值來簡單的檢視資料的分布情況,比如:正態分佈是單峰對稱分布,所以中位數、平均數和眾數三個引數都位於對稱中心,三者是相等的。

R語言平均值,中位數和眾數

平均值是通過取數值的總和並除以資料序列中的值的數量來計算。函式mean 用於在r中計算平均值。語法 r中計算平均值的基本語法是 mean x,trim 0,na.rm false,以下是使用的引數的描述 示例 create a vector.x c 17,8,6,4.12,11,8,54,11,18...

為什麼大多數人是窮人?

為什麼大多數人是窮人?為什麼大多數人做生意會失敗呢?原因很簡單。因為當乙個機會來臨時,大多數人看不懂它是機會。看懂了,但自己沒有能力,抓不住。前者看不懂也罷了,如果長了一顆智慧型和謙遜的心還好辦,因為可以傾聽和借力。而且真正想做的人總能找到方法。後者呢?較前者好很多。拿出勇氣,只需借力去做就可以了。...

R和python語言如何求平均值,中位數和眾數

均值是通過取數值的總和並除以資料序列中的值的數量來計算。r語言平均值公式 mean x,trim 0,na.rm false,x 是輸入向量。trim 用於從排序的向量的兩端刪除一些觀測值。na.rm 用於從輸入向量中刪除缺少的值 x c 22,13,2,45,56,73,21,44,na resu...