概率分布是個啥子嘞?

2022-06-07 07:12:10 字數 3953 閱讀 3729

目錄參考【猴子機器學習】

欠下的早晚得還~

so 什麼是概率分布呢?

從資料型別講起

一般在統計學中,資料型別也叫隨機變數

兩種資料型別:

離散型:取值不連續,每個資料之間有明確的間隔

連續型:取值連續:可以想象成一條連續平滑的曲線

其實就是資料在統計圖中的分布

概率分布就是將上面兩個東東(資料型別+分布)組合起來的一種表現手段:概率分布就是在統計圖中表示概率,橫軸是資料的值,縱軸是橫軸上對應資料值的概率。知乎

那麼,問題就來了。為什麼你要關心資料型別呢?因為資料型別會影響求概率的方法。

對於離散概率分布,我們關心的是取得乙個特定數值的概率。例如拋硬幣正面向上的概率為:p(x=正面)=1/2

而對於連續概率分布來說,我們無法給出每乙個數值的概率,因為我們不可能列舉每乙個精確數值。

例如,你在咖啡館約妹子出來,你提前到了。為了給妹子留下好印象,你估計妹子會在5分鐘之內出現,有可能是在4分鐘10秒以後出現,或者在4分鐘10.5秒以後出現,你不可能數清楚所有的可能時間,你更關心的是在妹子出現前的1-5分鐘內(範圍),你把髮型重新整理下(雖然你因為加班頭髮 已經禿頂了,但是髮型不能亂),給妹子留個好印象。所以,對於像時間這樣的連續型資料,你更關心的是乙個特定範圍的概率是多少。

當統計學家們開始研究概率分布時,他們看到,有幾種形狀反覆出現,於是就研究他們的規律,根據這些規律來解決特定條件下的問題。

因此常見的概率分布模型,可以理解為模板,遇到問題了不妨套模板解決問題

1)3種離散概率分布

二項分布有啥用呢?

當你遇到乙個事情,如果該事情發生次數固定,而你感興趣的是成功的次數,那麼就可以用二項分布的公式快速計算出概率來。

二項分布的特點

1)做某件事次數是固定的,用n表示

2)每一次事件都有兩個可能的結果(成功,或者失敗)

3)每一次成功的概率都是相等的,成功的概率用p表示

4)你感興趣的是成功x次的概率是多少

公式\(p(x)=c_}^ p^(1-p)^\)

就是計算做某件事情n次,成功x次的概率的。很多資料分析工具(excel,python,r)都提供工具讓你帶入你研究問題的數值,就能得到結果。

二項分布的平均值和標準差

期望e(x)=np (表示某事情發生n次,預期成功多少次。)

標準差 \(\sigma(x)=\sqrt \quad\) (表示資料波動大小)

如果你需要知道嘗試多次能取得第一次成功的概率,則需要幾何分布。

只要符合下面4個特點就可以判別你做的事情是就是幾何分布了:

1)做某事件次數(也叫試驗次數)是固定的,用n表示

(例如拋硬幣3次,表白5次),

2)每一次事件都有兩個可能的結果(成功,或者失敗)

(例如每一次拋硬幣有2個結果:正面表示成功,反面表示失敗。

每一次表白有2個結果:表白成功,表白失敗)。

3)每一次「成功」的概率都是相等的,成功的概率用p表示

(例如每一次拋硬幣正面朝上的概率都是1/2。

假設你是初出茅廬的小夥子,還不是老油條,所以你表白每一次成功的概率是一樣的)

4)你感興趣的是,進行x次嘗試這個事情,取得第1次成功的概率是多大。

(例如你在玩拋硬幣的遊戲,想知道拋5次硬幣,只有第5次(就是滴1次成功)正面朝上的概率是多大。

你表白你的暗戀物件,你希望知道要表白3次,心儀物件答應和你手牽手的概率多大。)

計算概率的公式

\(p(x)=(1-p)^ p\)

p為成功概率,即為了在第x次嘗試取得第1次成功,首先你要失敗(x-1)次。

假如在表白之前,你計算出即使你嘗試表白3次,在最後1次成功的概率還是小於50%,還沒有拋硬幣的概率高。那你就要考慮換個追求物件。或者首先提公升下自己,提高自己每一次表白的概率,

幾何分布的期望是e(x)=1/p。代表什麼意思呢?

假如你每次表白的成功概率是60%, 同時你也符合幾何分布的特點, 所以期望 \(e(x)=1 / p=1 / 0.6=1.67\)

所以你可以期望自己表白1.67次(約等於2次)會成功。這樣的期望讓你資訊倍增,起碼你不需要 努力上100次才能成功,2次還是能做到的,有必要嘗試下。

如果你想知道某個時間範圍內發生某件事情x次的概率是多大。這時候就可以用泊松分布輕鬆搞定。比如一天內中獎的次數,乙個月內某機器損壞的次數等。

當然是根據概率的大小來做出決策了。比如你搞了個**活動,最後算出來一天內中獎10次的概率都超過了90%,然後你順便算了下期望,再和你的活動成本比一下,發現要賠不少錢。那這個活動就別搞了。

泊松分布的形狀會隨著平均值的不同而有所變化,無論是一周內多少人能贏得彩票,還是每分鐘有多少人會打**到呼叫中心,泊松分布都可以告訴我們它們的概率。

1)事件是獨立事件

(之前如果你看過我的《投資賺錢與概率》已經知道賭徒謬論了,所以類似**這樣的就是獨立事件)

2)在任意相同的時間範圍內,事件發的概率相同

(例如1天內中獎概率,與第2天內中間概率相同)

3)你想知道某個時間範圍內,發生某件事情x次的概率是多大

(例如你搞了個****活動,想知道一天內10人中獎的概率)

用x代表事情發的次數(例如中獎10個人中獎),u代表給定時間範圍內事情發生的平均次數(例 如你搞的**活動1天平均中獎人數是5人),概率計算公式為:

\(\[

p(x)=\frac e^}

\]\)

可別被上面的公式審到,數學公式就是紙老虎,現在有很多任務具 (excel, python, r) 都可以直 接計算出來這個概率,所以也別記住這個公式, 用的時候知道泊松分布適合舍時候用就妥了。

例如你搞了個****活動,只知道1天內中獎的平均個數為5個,你想知道1天內恰巧中獎次數為 7的概率是多少?

此時x=7,u=5(區間內發生的平均次數),代入公式求出概率為10.44%。excel中的函式為 poisson.dist就可以立馬算出來。

泊松概率還有乙個重要性質,它的數學期望和方差相等,都等於u

2)1種連續概率分布

正態分佈

在開始介紹之前,你先回顧下這兩個知識:

期望:就是概率的平均值

方差:衡量資料波動的大小

這裡多bb兩句

看懂資料一般從4個方面進行分析

首先需要知道:描述統計學的關鍵點在於找到幾個關鍵的數字來描述資料集的整體情況。

第1個是平均值,但是平均值的缺點是對異常值不敏感,所以描述資料非常不準確。很多人會陷入平均值的陷阱,以及經常感嘆自己的工資為何被平均了。

以後新聞報告中再見到平均值,你就改小心了,別被忽悠了。我們要用知識打敗這個資訊**的世界。

第2個是四分位數,經常用箱線圖來表示。四分位數有兩個典型的應用:

1)常常用來比較不同類別資料的整體情況。之前社群會員也用箱線圖做過不同年限資料分析人員的薪資水平,一目了然。

2)四分位數的第2個應用是可以識別出異常值。有乙個方法叫tukey's test用的就是四分位數。

第3個是標準差,用於衡量資料的波動大小。一般nba球員穩定性,和**風險就是用標準差來衡量的。

第4個是標準分,用於表示某數值的相對排名,用於不同資料集間的比較。深圳中考排名就用過標準分來計算孩子的中考成績,方便家長選學校。

end to end train 是個啥子

在看 的過程中不斷的出現end to end train這的詞,於是我就很好奇,什麼是端對端的訓練。從網上的資料整理下來大概是這樣的。端到端指的是輸入是原始資料,輸出是最後的結果,原來輸入端不是直接的原始資料,而是在原始資料中提取的特徵,這一點在影象問題上尤為突出,因為影象畫素數太多,資料維度高,會...

KL距離(衡量兩個概率分布的差異情況)

kl距離,是kullback leibler差異 kullback leibler divergence 的簡稱,也叫做相對熵 relative entropy 它衡量的是相同事件空間裡的兩個概率分布的差異情況。kl距離全稱為kullback leibler divergence,也被稱為相對熵。公...

衡量兩個概率分布之間的差異性的指標

總結一下衡量兩個概率分布之間的差異性的指標,這裡只是簡單涉及到了kl散度 js散度 交叉熵和wasserstein距離 kl散度又稱為相對熵,資訊散度,資訊增益。定義 kl散度是是兩個概率分布 和 之間差別的非對稱性的度量,kl散度是用來度量使用基於 的編碼來編碼來自 的樣本平均所需的額外的位元數。...