機器學習系列 基礎 概率論 數字特徵

2021-09-24 14:43:56 字數 1814 閱讀 7370

最近在看各種演算法的時候,都會涉及到各種各樣的數字特徵,比如在knn中會涉及到眾數的概念,kd中會涉及到中位數的概念,決策樹中會涉及到期望的概念,本篇則主要對這些數字特徵進行一下對比和總結。

如下是最簡單的一張思維導圖:

用搜尋引擎定義,平均數就是期望,因為計算方式和結果都是一樣的。

比如擲骰子,投擲了8次,分別為:1,3,3,4,4,5,6,6

我們可以直接計算均值為1+3

+3+4

+4+5

+6+6

8\frac

81+3+3

+4+4

+5+6

+6​=4.

但是對於期望而言,則是計算如下:一共6次,2出現的概率為3次;4出現的概率為3次;其它的數值為0次,所以2和4分別佔據1

2\frac

21​的概率。所以期望e=1

∗18+

2∗0+

3∗28

+4∗2

8+5∗

18+6

∗28=

4e=1*\frac+2*0+3*\frac+4*\frac+5*\frac+6*\frac=4

e=1∗81

​+2∗

0+3∗

82​+

4∗82

​+5∗

81​+

6∗82

​=4如上計算,我們可以領悟到:均值,其實是針對實驗觀察到的特徵樣本而言的;期望是針對於隨機變數而言的乙個量,可以理解是一種站在「上帝視角」的值。針對於他的樣本空間而言的。均值是乙個統計量(對觀察樣本的統計),期望是一種概率論概念,是乙個數學特徵。

數學期望的計算公式為:e(x

)=∑i

=1nx

ipie(x)=\sum_^x_ip_i

e(x)=i

=1∑n

​xi​

pi​偏差,方差,標準差都是在期望的基準上計算的。 v[x

]=[(

1−4)

2+(3

−4)2

+(3−

4)2+

(4−4

)2+(

4−4)

2+(5

−4)2

+(6−

4)2+

(6−4

)2]8

=2.5

v[x]=\frac=2.5

v[x]=8

[(1−

4)2+

(3−4

)2+(

3−4)

2+(4

−4)2

+(4−

4)2+

(5−4

)2+(

6−4)

2+(6

−4)2

]​=2

.5當通過期望值不能判定隨機變數的離散程度的時候,我們則首要考慮的就是通過方差來計算,進而判定隨機變數的離散程度。v[x]值越大,隨機變數的值就越分散,值越小,隨機變數的值越集中,

平均數應用最為廣泛,用它作為一組資料的代表,比較可靠和穩定,它與這組資料中的每乙個資料都有關係,能夠最為充分地反映這組資料所包含的資訊,在進行統計推斷時有重要的作用;但容易受到極端資料的影響。

中位數在一組資料的數值排序中處於中間的位置,故其在統計學分析中也常常扮演著「分水嶺」的角色,人們由中位數可以對事物的大體趨勢進行判斷和掌控。

眾數著眼於對各資料出現的頻數的考察,其大小僅與一組資料中的部分資料有關,當一組資料中有不少資料多次重複出現時,它的眾數往往是我們關心的一種統計量。

概率論基礎

概率論 第一章 隨機事件及其概率 分為兩類 1.確定性現象 2.隨機現象 1.1隨機事件及其運算 1.隨機試驗與樣本空間 隨機試驗具有下列三個特徵 1 試驗可在相同條件下重複進行 2 試驗的結果不止乙個 3 每次實驗之前,不能判定哪乙個結果將會出現 用e表示隨機試驗。試驗e中的每乙個可能結果稱為基本...

概率論基礎學習筆記

參考 胡淵明2013國家集訓隊 資訊學競賽中概率論的基礎與應用 初等概率論有三個重要成分,分別是樣本空間 omega 我們一般記其每個元素為 omega 事件集合 f 和概率測度 p 我們常說的事件,實際上是樣本空間 omega 的某個子集.所有事件的集合記為 f 所以說 f 是集合的集合 實際上我...

概率論學習

離散型隨機變數的值和概率的分布列表 在很多教材中,這樣的列表都被叫做離散型隨機變數的 概率分布 其實嚴格來說,它應該叫 離散型隨機變數的值分布和值的概率分布列表 這個名字雖然比 概率分布 長了點,但是對於我們這些笨學生來說,肯定好理解了很多。因為這個列表,上面是值,下面是這個取值相應取到的概率,而且...