正態分佈(normal distribution)是統計學裡最常見的分布之一。
in probability theory, the normal (or gaussian or gauss or laplace–gauss) distribution is a very common continuous probability distribution.
正態分佈概念是由德國的數學家和天文學家moivre於2023年首次提出的,但由於德國數學家gauss率先將其應用於天文學家研究,故正態分佈又叫高斯分布(gauss distribution)。
這裡簡單介紹一下,統計學的分布型別包括連續型、離散型兩類。 針對連續型資料,有正態分佈、均勻分布、指數分布、伽瑪分布、貝塔分布等,其連續型隨機變數x的分布函式是連續的。 針對離散型資料,二項分布、泊松分布、幾何分布、負二項分布等,其隨機變數x的所有可能的取值是離散的。如在某次射擊考核中,總共射擊10次,命中的次數x服從二項分布b( 10,p)(p為射擊命中率),該分布函式只有0-10共11個可能的取值,屬於離散分布。
正態的英文單詞是「normal」,意思是「常見的,典型的」,主要是因為這種分布能恰當代表多種多樣的資料型別。
正態分佈的奇妙之處就在於它是自然分布,任何看似沒有規律可尋的隨機事件其實是服從乙個表示式就能表達的正態分佈,不受人為影響。 以數學理解為中心極限定理,即所有的隨機事件採樣本均值足夠多的情況下都服從正態分佈,所以就產生了對變數正態分佈的假設(這個理解主要來自於中心極限定理概念裡面提出的當隨機變數受綜合因素影響,且每乙個因素影響較小時,該變數都服從正態分佈的定理)
例如,對人類的智商評估結果做乙個分析,發現大部分人都在100這一平均值附近波動,75%聚集在85~115之間。這就是乙個典型的正態分佈,是自然形成的,不受人為因素左右。只有少數,比如莫扎特、愛因斯坦等少數天才達到160,也就成為分布中的奇異值(outlier)。再如《阿甘正傳》裡的主人公阿甘,他的智商只有70,則是處於正態分佈的邊緣(曲線一側的尾端)。
正態曲線呈鐘型,大部分資料集中在平均值,小部分在兩端,中間高,兩頭低,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
在統計學裡,很多場景都需要符號正態分佈的假設。 比如,對一組資料做t-test,z-test,或者對兩組資料做two-sample t-test, paired t-test等,都要求樣本資料符合正態分佈。 再如,對一組連續型資料進行回歸分析,要求殘差值符合正態分佈,在此基礎上得到的模型及結果才具有可靠性。
後續我們將講解如何檢測正態性(normality test)。
統計學之正態分佈檢驗
本次主要是對資料集資料進行正態分佈檢驗,資料集位址為 主要包括三列資料,體溫 f 性別 1 男,2 女 心率 次 分鐘 1.資料統計 usr bin env python coding utf 8 import requests import pandas as pd import numpy as...
征服統計學02 什麼是正態分佈?
本文簡單介紹正態分佈 正態分佈簡介 正態分佈關鍵引數 均值 標準差 正態分佈曲線如何繪製 正態分佈曲線現象解釋 reference 正態分佈 normal distribution 又名高斯分布 gaussian distribution 又因其曲線酷似鐘形,得名鐘形曲線。還是以上篇提到的測量身高為...
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...