一. 概念解釋
pdf:概率密度函式(probability density function), 在數學中,連續型隨機變數的概率密度函式(在不至於混淆時可以簡稱為密度函式)是乙個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。
pmf : 概率質量函式(probability mass function), 在概率論中,概率質量函式是離散隨機變數在各特定取值上的概率。
cdf : 累積分布函式 (cumulative distribution function),又叫分布函式,是概率密度函式的積分,能完整描述乙個實隨機變數x的概率分布。
二. 數學表示
pdf:如果x是連續型隨機變數,定義概率密度函式為fx(x),用pdf在某一區間上的積分來刻畫隨機變數落在這個區間中的概率,即
pr(a≤x≤b)=∫bafx(x)dx
pmf:如果x
離散型隨機變數,定義概率質量函式為fx(x)
,pmf其實就是高中所學的離散型隨機變數的分布律,即
fx(x)=pr(x=x)
比如對於擲一枚均勻硬幣,如果正面令x=1,如果反面令x=0,那麼它的pmf就是
fx(x)=0 if x?
cdf:不管是什麼型別(連續/離散/其他)的隨機變數,都可以定義它的累積分布函式,有時簡稱為分布函式。
對於連續型隨機變數,顯然有fx(x)=pr(x≤x)=∫x?∞fx(t)dt
那麼cdf就是pdf的積分,pdf就是cdf的導數。
對於離散型隨機變數,其cdf是分段函式,比如舉例中的擲硬幣隨機變數,它的cdf為
fx(x)=pr(x≤x)=?????0 if x<012 if 0≤x<11 if x≥1
三.概念分析
根據上述,我們能得到一下結論:
1)pdf是連續變數特有的,pmf是離散隨機變數特有的;
2)pdf的取值本身不是概率,它是一種趨勢(密度)只有對連續隨機變數的取值進行積分後才是概率,也就是說對於連續值確定它在某一點的概率是沒有意義的;
3)pmf的取值本身代表該值的概率。
四.分布函式的意義
我們從兩點來分析分布函式的意義:
1.為什麼需要分布函式?
對於離散型隨機變數,可以直接用分布律來描述其統計規律性,而對於非離散型的隨機變數,如連續型隨機變數,因為我們無法一一枚舉出隨機變數的所有可能取值,所以它的概率分布不能像隨機變數那樣進行描述,於是引入pdf,用積分來求隨機變數落入某個區間的概率。分布律不能描述連續型隨機變數,密度函式不能描述離散隨機變數,因此需要找到乙個統一方式描述隨機變數統計規律,這就有了分布函式。另外,在現實生活中,有時候人們感興趣的是隨機變數落入某個範圍內的概率是多少,如擲骰子的數小於3點的獲勝,那麼考慮隨機變數落入某個區間的概率就變得有現實意義了,因此引入分布函式很有必要。
2. 分布函式的意義
分布函式f(x)
在點x處的函式值表示x落在區間(?∞,x]內的概率,所以分布函式就是定義域為r
的乙個普通函式,因此我們可以把概率問題轉化為函式問題,從而可以利用普通的函式知識來研究概率問題,增大了概率的研究範圍。
資料分析之分布分析
aggresult data.groupby by 年齡 年齡 agg 可以看到分組已經成功,但是結果不直觀,從結果反映不出每個年齡的人數 進行數值分段處理 bins min data.年齡 1,20,30,40,max data.年齡 1 labels 20歲及以下 21歲到30歲 31歲到40歲...
資料分析方法之分解分析介紹
在bi系統中,分解分析是結合結構分析與因素分析的一種視覺化的資料分析方法,它可通過使用者互動式的分析操作過程,構造出樹形的分解結構,並結合80 20原理圖來展現因子的資料分布情況。分解分析可用於分析kpi指標的構成因子及其貢獻度。資料分析之分解分析 在分解樹節點上可顯示多種資訊,如指標的數值 佔比 ...
資料分析之分析美國人口
資料 需求 匯入檔案,檢視原始資料 將人口資料和各州簡稱資料進行合併 將合併的資料中重複的abbreviation列進行刪除 檢視存在缺失資料的列 找到有哪些state region使得state的值為nan,進行去重操作 為找到的這些state region的state項補上正確的值,從而去除掉s...