機器學習基礎 各種學習方式(17) 度量學習

2021-08-21 12:08:37 字數 1103 閱讀 3411

距離的度量對眾多機器學習方法的效能都起到了決定性作用:例如在分類方法中,k近鄰分類器、使用了高斯核的核方法;在聚類方法中,k均值聚類、譜聚類方法都與距離度量密切相關。

卡內基梅隆大學機器學習系的邢波教授於2023年提出了距離度量學習。

乙個好的距離度量能夠根據資料的結構與分布適用於不同的應用。

一般的距離度量學習針對度量矩陣m展開。

度量矩陣的對稱正定性,必然存在正交基p,使得m=pp~t ,故對度量矩陣m的學習,等效於學習乙個線性空間變換矩陣p。

更進一步地,若m是乙個低秩矩陣,那麼存在正交基p,該正交基可以作為降維矩陣使用。也即低秩距離度量學習可以衍生出乙個降維方法。

幾乎每種線性距離度量學習方法都對應著一類降維策略。在意識到距離度量學習和降維的關係之後,研究者們提出了很多能夠直接進行降維或者利用降維能力簡化計算的距離度量學習方法。

必連(must-link)和勿連(cannot link)約束集概念(分別記為s和d,即相似樣本組成的樣本對屬於必連約束集、相異樣本對屬於勿連約束集)

必連、勿連約束往往來自於樣本的標記資訊,而且約束所有的樣本,故而使用必連、勿連約束的距離度量學習方法往往是全域性度量學習方法。

一般來說,對於任意樣本x, y, z而言,距離度量函式需要滿足:

自反(任意樣本到自身的距離為0)

對稱(x到y的距離等於y到x的距離)

非負(任意樣本對之間的距離大於等於0)

直遞(三個樣本之間的距離滿足三角不等式)等性質

閔可夫斯基距離(歐幾里得距離、曼哈頓距離、切比雪夫距離均為其特例)、馬氏距離、海明距離等距離度量函式,

針對某些特定問題的衍生距離度量,例如,動態時間規整距離dtw, 推土機距離emd等。

1)歐氏距離是眾多資料探勘應用中使用最多的距離度量,但是歐氏距離僅適用於特徵空間中超球結構的資料集,對於超立方體結構、超橢球結構的資料集效果不太理想。

2)余弦距離在文字檢索中有優秀的表現,但是其預先假設了資料集每一維度都是等權重的,這一特性顯然限制了余弦距離的應用範圍。

例子:lmnn學習得到的度量旨在區域性區域將同類樣本點拉近、異類樣本點排斥開,並在同類和異類樣本之間建立乙個邊界區域以便於knn取得較好的分類效果。」

機器學習基礎 各種學習方式(22) 表徵學習

在歐幾里德空間 例如,nrn 中的向量空間 中是否存在一種符號屬性,可以表示出 任意構建的 原始物件?這被稱為表徵學習 representation learning 例如我們希望找到城市的向量表示,從而可以進行這樣的向量運算 羅馬 義大利 法國 巴黎。機器學習旨在自動地學到從資料的表示 repre...

機器學習基礎 math(17) 各種距離

任意滿足測度的 4 個條件的函式都可以被定義為距離。non negativity or separation axiom 非負性或分離公理 identity of indiscernibles 不可分辨的同一性 symmetry 對稱性 subadditivity or inequality 次可加...

機器學習基礎 各種學習方式(28) 元學習方法

meta learning learning to learn 讓機器學習如何學習。元學習學習到的是學習能力,而不是知識本身。智慧型很重要的一方面在於它的多功能性 versatility 即可以處理多種不同事情的能力。而我們人類卻可以在新的未知條件下表現出十分智慧型的行為和適應性。那麼我們如何才能教...