標稱屬性的鄰近性度量

2021-07-03 01:19:47 字數 396 閱讀 9277

例:標稱屬性color:red,yellow,black,blue,green.(有5個屬性值可選)

問:物件由標稱屬性刻畫,那麼怎麼判定物件之間的相異性呢?

答:

p:表示標稱屬性可選的屬性值的個數,在上例中,p=5

m:表示物件i與物件j之間有相同屬性值的個數

當然,我們可以對m賦予權重,增加m的影響度

標稱屬性之間的相異性也可以用編碼方案計算,

例:物件i:red

則物件i的編碼為:10000.

顯而易見,0代表不出現,1代表出現

那麼,接下來就應該使用 二元屬性的鄰近性度量 來刻畫物件之間的相異性

資料探勘學習筆記 數值屬性的鄰近性度量

目錄 資料標準化 數值屬性的相異性側度 閔可夫斯基距離特殊形式 計算例子 數值屬性相異性計算之前,一般先進行資料標準化處理。數值屬性的資料為連續型資料,且對於不同的數值屬性,其數值的範圍可能相差較大,有的區間長度很小,有的區間長度卻很大,這時應對數值屬性做規範化處理 按比例放縮 使得所有的數值屬性都...

資料探勘學習筆記 二元屬性的鄰近性度量

二元屬性 0和1.顯而易見,0表示不出現,1表示出現 分為 對稱性和非對稱性 對稱性二元屬性 兩個個狀態同等重要 非對稱性 兩個狀態不是同等重要的 更重要的 機率較小的賦值1 兩個都取1 正匹配 比兩個都取0 負匹配 的情況更有意義 鄰近性度量 為相異性和相似性度量 問 如何刻畫對稱二元屬性之間的相...

標稱屬性的概念分層

tag c 分離字串 vector陣列去重 資料探勘 資料預處理 資料變換 資料離散化 標籤屬性的概念分層 注意到乙個啟發規則 較高概念分層的屬性,通常包含較少的不同值 以,國家這一屬性包含的不同值的個數,和省或者州包含的不同取值數比較,前者個數顯然較少 號開始的行是注釋 非注釋行的第一行表示屬性的...