資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:
一、min-max標準化(min-max normalization)
也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:
其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。
二、z-score標準化方法
這種方法給予原始資料的均值(mean)和標準差(standarddeviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:
其中三、**實現和資料
輸出如下:
相似度(sim)的範圍[-1,1],相當於把-1轉化為無窮大,把1轉化為0。
公式:dist=-log(sim/2+0.5)
公式:相似度=1/(1+距離)
1. 先求歐式距離,再根據公式:相似度=1/(1+距離),得出相似度
2. 皮爾遜相關係數。
3. 先余弦相似度,因為取值範圍是[-1,1],所以再歸一化。
相似度=(余弦相似度+1)/2。
資料相似性
首先模擬一些資料出來 假設有這樣一些id是1 5的條目,然後有幾個人對他們看過的條目進行了評分 1 5 那麼我們可能有這樣的一組資料,格式是 人名 a b c 給定兩個人,如何計算他們的相似度,比如,在b和c裡,誰和a的評分最相似?給出一些方法 1 簡單匹配係數 matching coefficie...
距離和相似性度量
相似性度量或者距離函式對於像聚類,鄰域搜尋這樣的演算法是非常重要的。前面也提到,網頁去重複也是相似性應用的乙個例子。然而,如何定義個合適的相似或者距離函式,完全依賴於手頭的任務是什麼。一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0...
資料相似性的度量方法總結
現實中,我們需要處理的資料具有著不同的形式和特徵。而對資料相似性的度量又是資料探勘分析中非常重要的環節。針對這些不同形式的資料,不可能找到一種具備普遍意義的相似性度量演算法,甚至可以說,每種型別的資料都有它對應的相似度度量標準。這些標準很多,也比較雜亂,有必要作以總結。廢話不多說了,直接進入正題。現...