n維空間的兩點距離公式為:
即|x| = √( x[1]^2 + x[2]^2 + … + x[n]^2 )
歐式距離也是在日常生活中運用的最廣泛的距離
首先需要了解協方差的內容:
協方差可以用來描述事物間兩種屬性的聯絡,和方差的定義差不多,只是把方差乙個維度維度的平方換成了兩個維度的乘積:
顯而易見,如果協方差為正,應該代表這兩者是存在正相關的關係,同時他也有方差的特徵,這幾個點從兩個維度上來說,相差越遠,值就越大。
但是,我們想到,假如一組資料有很多維度怎麼辦,而我們的偏方差最多只能描述兩個維度。這個時候我們就需要引入矩陣,採用偏方差矩陣來解決這個問題。
介紹完了協方差及其矩陣,我們來看一條性質:
如果協方差矩陣為單位矩陣,馬氏距離就簡化為歐式距離;如果協方差矩陣為對角陣,其也可稱為正規化的馬氏距離。
事實上,對於乙個均值為μ,協方差矩陣為σ的多變數向量,其馬氏距離為sqrt( (x-μ)'σ^(-1)(x-μ) )。
公式看起來很簡單,不是嗎?
兩個點在標準座標系下沿軸方向的距離總和,比如有兩個點(1,3)和(2,4),那麼它的曼哈頓距離為
|1-2|+|3-4|=2;
二個點之間的切比雪夫距離定義是其各座標數值差絕對值的最大值。
用上面曼哈頓距離的兩個點做例子,切比雪夫距離就是
max(|1-2|,|3-4|)=1;
閔氏距離不是乙個距離,而是一類距離的定義。
兩個n維變數a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:
其中p是乙個變引數。
當p=1時,就是曼哈頓距離
當p=2時,就是歐氏距離
當p→∞時,就是切比雪夫距離
根據變引數的不同,閔氏距離可以表示一類的距離。
在資訊編碼中,兩個合法**對應位上編碼不同的位數稱為碼距,又稱海明距離。
兩個碼字的對應位元取值不同的位元數稱為這兩個碼字的海明距離。在乙個有效編碼集中,任意兩個碼字的海明距離的最小值稱為該編碼集的海明距離。舉例如下:10101和00110從第一位開始依次有第一位、第
四、第五位不同,則海明距離為3。
機器學習中的距離
也稱歐幾里得距離,在乙個n維度的空間裡,求兩個點的距離,這個距離肯定是乙個大於等於零的數字,那麼這個距離需要用兩個點在各自維度上的座標相減,平方後加和再開方。就是歐式距離的平方 相比歐氏距離要簡單得多,曼哈頓距離只要把兩個點座標的x座標相減取絕對值,y座標相減取絕對值,再加和。也叫做余弦相似度,是用...
大資料和機器學習的關係
現在已經成為大資料專業的研究生了,但是對於很多概念還是有點模糊,在網上查了一些資料,感覺略有心得,再次整理一下 大資料 大資料是相當於傳統資料的概念,大資料的 大 體現在資料的 數量大,種類多,產生快,處理快,價值高等特點,大資料的學習路線又可以分為兩種,一種是大資料 開發 分析 應用,以時下熱門的...
大資料時代的機器學習
張長水 大資料時代的機器學習 vs 傳統機器學習 從機器學習角度看,大資料 指的是資料量大,資料本身不夠精確。資料混雜,資料自然產生。機器學習對大資料的處理的兩個挑戰 大資料時代給機器學習帶來新的機遇 於劍 從認知角度看待大資料 該報告從認知角度分析資料與知識的聯絡。眼下機器學習的知識主要是概念,傳...