機器學習中常用距離的小結

2021-10-02 20:29:24 字數 1448 閱讀 1855

設有兩個n維向量a=(x11,x12,…,x1n)和b=(x21,x22,…,x2n)。

1.曼哈頓距離

曼哈頓距離也稱為城市街區距離,數學表示式為

2.歐氏距離

歐氏距離就是我們熟悉的l2範數,數學表示式為

3.閔可夫斯基距離

閔可夫斯基距離可以看作歐氏距離的一種推廣,數學表示式為

可以看到,當p值取1時,閔可夫斯基距離就是曼哈頓距離;當p值取2時,閔可夫斯基距離就是歐氏距離。

4.切比雪夫距離

切比雪夫距離就是無窮級數,即

5.夾角余弦

夾角余弦的取值範圍為[-1,1],可以用來衡量兩個向量方向的差異。夾角余弦越大,表示兩個向量的夾角越小。當兩個向量的方向重合時,夾角余弦取最大值1;當兩個向量的方向完全相反時,夾角余弦取最小值-1。機器學習中用這一概念來衡量樣本向量之間的差異,其數學表示式為

6.漢明距離

漢明距離定義的是兩個字串中不相同位數的數目。例如,字串『1111』與『1001』之間的漢明距離為2。

7.傑卡德相似係數

兩個集合a和b的交集元素在a和b的並集中所佔的比例稱為兩個集合的傑卡德相似係數,用符號j(a,b)表示,數學表示式為

傑卡德相似係數是衡量兩個集合相似度的一種指標,一般可以將其用在衡量樣本的相似度上,在聚類問題中會用到。

8.傑卡德距離

與傑卡德相似係數相反的概念是傑卡德距離,其數學表示式為

機器學習中常用的距離計算方法

我們已經知道了如何通過樣本間的距離來評估簇間的距離,本節只剩下最後乙個問題了,如何計算樣本間的距離,假設樣本是n維,常用的距離計算方法有 1 尤拉距離 euclidean distance 2 平方歐式距離 squared euclidean distance 3 曼哈頓距離 manhattan d...

機器學習 深度學習中常用的Linux命令

作為一名coder,linux命令是基本生存技能,但linux的命令何其多,要想完全掌握可不易。在我平常的學習和工作中,linux伺服器主要是用來跑ml dl 的 linux運維大神請略過 因此本文將主要從跑 的角度 一下常用的linux操作。告別手指抽筋的方向鍵 ctrl e 游標回到行末 ctr...

機器學習中常用的矩陣求導公式

機器學習中常用的矩陣求導公式 矩陣求導好像讀書的時候都沒學過,因為講矩陣的課程上不講求導,講求導的課又不提矩陣。如果從事機器學習方面的工作,那就一定會遇到矩陣求導的東西。維基百科上 根據y與x的不同型別 實值,向量,矩陣 給出了具體的求導公式,以及一堆相關的公式,查起來都費勁。其實在實際的機器學習工...