二元屬性:0和1.顯而易見,0表示不出現,1表示出現
分為:對稱性和非對稱性
對稱性二元屬性:兩個個狀態同等重要
非對稱性:兩個狀態不是同等重要的(更重要的/機率較小的賦值1),兩個都取1(正匹配)比兩個都取0(負匹配)的情況更有意義
鄰近性度量:為相異性和相似性度量
問:如何刻畫對稱二元屬性之間的相異性
答:
這是物件 i 與物件 j 之間二元屬性的列聯表
q:表示物件 i 與物件 j 都取1的屬性數,其餘類似
p:表示刻畫物件的屬性總數
那麼相異性:
問:那麼非對稱二元屬性的相異性呢?
答:正匹配比度匹配有意義的多,因此負匹配數t忽略不計
那麼非對稱二元屬性之間的相似性度量為:
一般來講,我們更關注值為 1 的特徵,當資料向量非常稀疏時,值為 1 的特徵個數少,值為 0 的特徵個數非常多,此時 smc 對每個使用者間計算的值都是非常相近的,容易判定都相似,所以引入jaccard 係數,它忽略了取值都是 0 的特徵。
當對稱和非對稱的二元屬性出現在同乙個資料集中,可以使用混合屬性方法
資料探勘學習筆記 數值屬性的鄰近性度量
目錄 資料標準化 數值屬性的相異性側度 閔可夫斯基距離特殊形式 計算例子 數值屬性相異性計算之前,一般先進行資料標準化處理。數值屬性的資料為連續型資料,且對於不同的數值屬性,其數值的範圍可能相差較大,有的區間長度很小,有的區間長度卻很大,這時應對數值屬性做規範化處理 按比例放縮 使得所有的數值屬性都...
資料探勘學習筆記(二)
1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...