1、均值
樣本均值描述的是集合的中間點、平均值、均值的資訊是有限的,有時候甚至是完全沒有參考意義的。
2、標準差
標準差描述的是樣本集合中的各個樣本點到均值的距離的平均值。以集合[2,8,12,18]和集合[7,9,11,13]為例,兩者的均值都是10,但顯然後都較為集中,故其標準差小一些。所以標準差描述的是集合中樣品分布的聚合程度。
3、方差
方差是標準差的平方。
4、期望
在概率論和統計學中,數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。它反映隨機變數平均取值的大小。
期望是對一組概率事件在實驗前根據概率分布**出的樣本的平均值,是乙個概率論的概念,而均值是該概率事件發生後根據實際結果統計的樣本的平均值,是乙個統計概念。
一句話概況:期望就是平均數隨樣本趨於無窮的極限,可用來估計模型的均值。
5、協方差
協方差用於衡量兩個變數的總體誤差。如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值時另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,即其中乙個變數大於自身的期望值時另外乙個卻小於自身的期望,那麼兩個變數之間的協方差就是負值。
6、歐式距離
歐氏距離也稱歐幾里得度量、歐幾里得距離,是乙個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。在二維空間中的歐氏距離就是兩點之間的直線段距離。在多維向量中歐式距離的計算定義為兩個他們向量對應元素差的平方和再開方。
歐氏距離在解決多元資料的分析問題時,存在一定的問題,歐氏距離將樣本的不同屬性無差別對待,實際問題中往往樣本中每個屬性的權重因子是不一樣的,比如衡量一所房子的好壞,對於有子女需要上學的人,會認為學位更為重要,所佔權重應該大一些,而有些家庭人口比較多的人考慮到人均面積,會認為戶型、房間數量所佔權重應該大一些等等,所以在這種情況歐氏距離各個元素一刀切的對待方式來評價乙個現實問題往往是不可取的。
7、馬氏(mahalanobis)距離
馬氏距離是由印度統計學家馬哈拉諾比斯(p.c.mahalanobis) 提出的,表示資料所在的空間的協方差的度量,或者認為是把資料所在空間進行歸一化處理之後再進行的度量。它是一種有效的計算兩個未知樣本集的相似度的方法。
馬氏距離還可以排除變數之間的相關性的干擾。它的缺點是誇大了變化微小的變數的作用。馬氏距離是多維空間中兩點相似性的變數,往往作為聚類或者分類演算法的基礎。
強烈推薦這篇博文講述馬氏距離
基本數學概念 集合
這裡找了乙個集合的基本操作的應用場景,並給出了r求解過程。乙個班級有10個人,學號編號分別為1 2 3 4 5 6 7 8 9 10。其中,3個人參加了物理競賽,5個人參加了數學競賽,5個人參加了作文競賽,6個人參加了英文競賽。分別找出以下的人 1 參加了物理競賽或數學競賽的所有人。2 既參加了物理...
機器學習中的基本數學知識
注 本文的 是使用python 3寫的。低等數學 幾何微分 differential 統計學 概率論 資訊理論博弈論 不知道放到哪兒 機器學習 附錄參照 1 f x xw t b f x xwt b 1 1 f x xwt b 這是在機器學習中,最常見的公式。我把這個稱為機器學習的第一公式,實際上就...
機器學習的數學概念
1 概率描述了已知引數時的隨機變數的輸出結果 似然則用來描述已知隨機變數輸出結果時,未知引數的可能取值。涉及到似然函式的許多應用中,更方便的是使用似然函式的自然對數形式,即 對數似然函式 2 最大似然估計是似然函式最初也是最自然的應用。上文已經提到,似然函式取得最大值表示相應的引數能夠使得統計模型最...