幾種距離計算公式在資料探勘中的應用場景分析

2021-09-22 04:35:42 字數 1817 閱讀 7152

標籤: 資料探勘/曼哈頓距離/歐幾里得距離/皮爾遜相關係數/余弦相似度

博主微博:

github:

兩個n維變數a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:

∑k=1n∣∣

x1k−

x2k∣

∣p‾‾

‾‾‾‾

‾‾‾‾

‾‾‾‾

⎷

p 其中p是乙個變引數。

當p=1時,就是曼哈頓距離

當p=2時,就是歐氏距離

當p→∞時,就是切比雪夫距離

根據變引數的不同,閔氏距離可以表示一類的距離。

p值越大,單個維度的差值大小會對整體距離有更大的影響

表中的橫線表示使用者沒有對樂隊進行評價,我們在計算兩個使用者的距離時,只採用他們都評價過的樂隊。

現在來求angelica和bill的距離,因為他們共同評分過的樂隊有5個,所以使用其對該5個樂隊的評分進行曼哈頓距離的計算為:

dis_1 =|3.5-2| + |2-3.5| + |5-2| + |1.5-3.5| + |2-3| = 9
同樣使用歐式距離計算為:

dis_2 = sqrt( (

3.5-2)

^2+ (2-

3.5)

^2+ (5-

2)^2+ (

1.5-

3.5)

^2+ (2-

3)^2) =

4.3

當對angelica和bill,bill和chan進行距離對比時,由於兩者的共同評分過的樂隊均為5,資料都在乙個5維空間裡,是公平的,如果現在要計算angelica和hailey與bill的距離時,會發現,angelica與bill共同評分的有5個樂隊,hailey與bill共同評分的有3個樂隊,也就是說兩者資料乙個在5維空間裡,乙個在三維空間裡,這樣明顯是不公平的。這將會對我們進行計算時產生不好的影響,所以曼哈頓距離和歐幾里得距離在資料完整的情況下效果最好。

仔細觀察使用者對樂隊的評分資料,可以發現每個使用者的評分標準不同:

那麼如何比較這些使用者呢?比如說hailey的4分是相當於jordyn的4分還是5分呢?我覺得更接近5分,這樣一來,就影響推薦系統的準確性了!

這種現象在資料探勘領域被稱為「分數膨脹「。我們將其評分畫成圖,如下:

一條直線-完全吻合,代表著clara和robert的喜好完全一致。

皮爾遜相關係數用於衡量兩個變數之間的相關性,他的值在-1~1,1代表完全一致,-1代表完全相悖。所以我們可以利用皮爾遜相關係數來找到相似的使用者。

該公式除了看起來比較複雜,另外需要對資料進行兩次遍歷,第一次遍歷求出 x平均值和y平均值,第二次遍歷才能出現結果,這裡提供另外乙個計算公式,能夠計算皮爾遜相關係數的近似值:

這裡只是簡答的介紹了這幾種相似性距離度量的方法和場景,但是在實際環境中遠比這個複雜許多。這裡總結下:

常見的幾種效能測試指標及計算公式

響應時間 n1 n2 n3 n4 a1 a3 a2 併發使用者數的計算公式系統使用者數 系統額定的使用者數量,如乙個oa系統,可能使用該系統的使用者總數是5000個,那麼這個數量,就是系統使用者數。平均併發使用者數的計算 c nl t 其中c是平均的併發使用者數,n是平均每天訪問使用者數 login...

根據錄入的計算公式計算 資料的錄入和資料有效性驗證

確定了關鍵指標後,我們就需要根據關鍵指標的資料計算公式和指標自身的資料,來進行後台資料 的字段的設計。我們把原始的資料 分為後台資料表和前台資料表。61.後台資料表和前台資料表後台資料表是指你可以計算的乙個資料表,這個表的格式都是基於資料的計算統計而生,後台表的使用物件是資料處理和分析人員。前台資料...

PMP中掙值管理的概念和計算公式

掙值管理 掙值管理是用來綜合考察專案範圍 進度和成本績效的方法,是專案整合管理的要求。雖然它直接測量的只是進度和成本績效,但 pmbok 指南 中也提到了範圍。可以說,掙值管理是一種把範圍 進度和成本績效整合起來考察的方法,就是要在既定的範圍之下追求進度和成本績效的綜合最優。它可以避免單獨測量進度或...