最近在看各種演算法的時候,都會涉及到各種各樣的數字特徵,比如在knn中會涉及到眾數的概念,kd中會涉及到中位數的概念,決策樹中會涉及到期望的概念,本篇則主要對這些數字特徵進行一下對比和總結。
如下是最簡單的一張思維導圖:
用搜尋引擎定義,平均數就是期望,因為計算方式和結果都是一樣的。
比如擲骰子,投擲了8次,分別為:1,3,3,4,4,5,6,6
我們可以直接計算均值為1+3
+3+4
+4+5
+6+6
8\frac
81+3+3
+4+4
+5+6
+6=4.
但是對於期望而言,則是計算如下:一共6次,2出現的概率為3次;4出現的概率為3次;其它的數值為0次,所以2和4分別佔據1
2\frac
21的概率。所以期望e=1
∗18+
2∗0+
3∗28
+4∗2
8+5∗
18+6
∗28=
4e=1*\frac+2*0+3*\frac+4*\frac+5*\frac+6*\frac=4
e=1∗81
+2∗
0+3∗
82+
4∗82
+5∗
81+
6∗82
=4如上計算,我們可以領悟到:均值,其實是針對實驗觀察到的特徵樣本而言的;期望是針對於隨機變數而言的乙個量,可以理解是一種站在「上帝視角」的值。針對於他的樣本空間而言的。均值是乙個統計量(對觀察樣本的統計),期望是一種概率論概念,是乙個數學特徵。
數學期望的計算公式為:e(x
)=∑i
=1nx
ipie(x)=\sum_^x_ip_i
e(x)=i
=1∑n
xi
pi偏差,方差,標準差都是在期望的基準上計算的。 v[x
]=[(
1−4)
2+(3
−4)2
+(3−
4)2+
(4−4
)2+(
4−4)
2+(5
−4)2
+(6−
4)2+
(6−4
)2]8
=2.5
v[x]=\frac=2.5
v[x]=8
[(1−
4)2+
(3−4
)2+(
3−4)
2+(4
−4)2
+(4−
4)2+
(5−4
)2+(
6−4)
2+(6
−4)2
]=2
.5當通過期望值不能判定隨機變數的離散程度的時候,我們則首要考慮的就是通過方差來計算,進而判定隨機變數的離散程度。v[x]值越大,隨機變數的值就越分散,值越小,隨機變數的值越集中,
平均數應用最為廣泛,用它作為一組資料的代表,比較可靠和穩定,它與這組資料中的每乙個資料都有關係,能夠最為充分地反映這組資料所包含的資訊,在進行統計推斷時有重要的作用;但容易受到極端資料的影響。
中位數在一組資料的數值排序中處於中間的位置,故其在統計學分析中也常常扮演著「分水嶺」的角色,人們由中位數可以對事物的大體趨勢進行判斷和掌控。
眾數著眼於對各資料出現的頻數的考察,其大小僅與一組資料中的部分資料有關,當一組資料中有不少資料多次重複出現時,它的眾數往往是我們關心的一種統計量。
概率論基礎
概率論 第一章 隨機事件及其概率 分為兩類 1.確定性現象 2.隨機現象 1.1隨機事件及其運算 1.隨機試驗與樣本空間 隨機試驗具有下列三個特徵 1 試驗可在相同條件下重複進行 2 試驗的結果不止乙個 3 每次實驗之前,不能判定哪乙個結果將會出現 用e表示隨機試驗。試驗e中的每乙個可能結果稱為基本...
概率論基礎學習筆記
參考 胡淵明2013國家集訓隊 資訊學競賽中概率論的基礎與應用 初等概率論有三個重要成分,分別是樣本空間 omega 我們一般記其每個元素為 omega 事件集合 f 和概率測度 p 我們常說的事件,實際上是樣本空間 omega 的某個子集.所有事件的集合記為 f 所以說 f 是集合的集合 實際上我...
概率論學習
離散型隨機變數的值和概率的分布列表 在很多教材中,這樣的列表都被叫做離散型隨機變數的 概率分布 其實嚴格來說,它應該叫 離散型隨機變數的值分布和值的概率分布列表 這個名字雖然比 概率分布 長了點,但是對於我們這些笨學生來說,肯定好理解了很多。因為這個列表,上面是值,下面是這個取值相應取到的概率,而且...