機器學習和大資料中運用的距離計算方法

2021-08-07 11:12:56 字數 1202 閱讀 9092

n維空間的兩點距離公式為:

即|x| = √( x[1]^2 + x[2]^2 + … + x[n]^2 )

歐式距離也是在日常生活中運用的最廣泛的距離

首先需要了解協方差的內容:

協方差可以用來描述事物間兩種屬性的聯絡,和方差的定義差不多,只是把方差乙個維度維度的平方換成了兩個維度的乘積:

顯而易見,如果協方差為正,應該代表這兩者是存在正相關的關係,同時他也有方差的特徵,這幾個點從兩個維度上來說,相差越遠,值就越大。

但是,我們想到,假如一組資料有很多維度怎麼辦,而我們的偏方差最多只能描述兩個維度。這個時候我們就需要引入矩陣,採用偏方差矩陣來解決這個問題。

介紹完了協方差及其矩陣,我們來看一條性質:

如果協方差矩陣為單位矩陣,馬氏距離就簡化為歐式距離;如果協方差矩陣為對角陣,其也可稱為正規化的馬氏距離。

事實上,對於乙個均值為μ,協方差矩陣為σ的多變數向量,其馬氏距離為sqrt( (x-μ)'σ^(-1)(x-μ) )。

公式看起來很簡單,不是嗎?

兩個點在標準座標系下沿軸方向的距離總和,比如有兩個點(1,3)和(2,4),那麼它的曼哈頓距離為

|1-2|+|3-4|=2;

二個點之間的切比雪夫距離定義是其各座標數值差絕對值的最大值。

用上面曼哈頓距離的兩個點做例子,切比雪夫距離就是

max(|1-2|,|3-4|)=1;

閔氏距離不是乙個距離,而是一類距離的定義。

兩個n維變數a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:

其中p是乙個變引數。

當p=1時,就是曼哈頓距離

當p=2時,就是歐氏距離

當p→∞時,就是切比雪夫距離

根據變引數的不同,閔氏距離可以表示一類的距離。​

在資訊編碼中,兩個合法**對應位上編碼不同的位數稱為碼距,又稱海明距離。

兩個碼字的對應位元取值不同的位元數稱為這兩個碼字的海明距離。在乙個有效編碼集中,任意兩個碼字的海明距離的最小值稱為該編碼集的海明距離。舉例如下:10101和00110從第一位開始依次有第一位、第

四、第五位不同,則海明距離為3。

機器學習中的距離

也稱歐幾里得距離,在乙個n維度的空間裡,求兩個點的距離,這個距離肯定是乙個大於等於零的數字,那麼這個距離需要用兩個點在各自維度上的座標相減,平方後加和再開方。就是歐式距離的平方 相比歐氏距離要簡單得多,曼哈頓距離只要把兩個點座標的x座標相減取絕對值,y座標相減取絕對值,再加和。也叫做余弦相似度,是用...

大資料和機器學習的關係

現在已經成為大資料專業的研究生了,但是對於很多概念還是有點模糊,在網上查了一些資料,感覺略有心得,再次整理一下 大資料 大資料是相當於傳統資料的概念,大資料的 大 體現在資料的 數量大,種類多,產生快,處理快,價值高等特點,大資料的學習路線又可以分為兩種,一種是大資料 開發 分析 應用,以時下熱門的...

大資料時代的機器學習

張長水 大資料時代的機器學習 vs 傳統機器學習 從機器學習角度看,大資料 指的是資料量大,資料本身不夠精確。資料混雜,資料自然產生。機器學習對大資料的處理的兩個挑戰 大資料時代給機器學習帶來新的機遇 於劍 從認知角度看待大資料 該報告從認知角度分析資料與知識的聯絡。眼下機器學習的知識主要是概念,傳...