第二章 相似性和相異性度量 資料 資料預處理

2021-08-29 18:17:43 字數 1983 閱讀 2483

資料型別:定量、定性

屬性是物件的性質、特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則(函式)

屬性型別:屬性的性質不必與用來度量他的值的性質相同

屬性的不同:相異性、序、加法、乘法

四種屬性型別:標稱和序數(分類的、定性的)、區間和比率(數值的、定量的);非對稱屬性:如果屬性值具有相同的權重,則為對稱的;反之,為非對稱的

資料集的型別:

資料集的特徵:維度、稀疏性、解析度

記錄資料:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣

基於圖形的資料

資料質量

資料清洗:測量誤差與資料收集誤差、雜訊、偽像(確定的錯誤的結果)

精度、標準差

偏倚:樣本與總體引數之差

精確度:測量值與實際值之間的接近度

離群點:不同於噪音,本身是合法的,有時作為研究物件

遺漏值不一致的值

重複資料:去重複

聚集:將多個物件合併為單個物件;定量屬性求和或平均值聚集,定性屬性可以忽略或彙總成乙個集合;聚集可以歸納成小資料集,演算法開銷小;

抽樣:抽取有代表性的樣本(近似的具有與原資料集相同的性質);漸次抽樣:合適的樣本量很難確定,從乙個小樣本開始,增加樣本量直到足夠容量的樣本

維歸約:

將舊屬性合併在一起得到新屬性;

維災難:維度增加,資料在空間中變得稀疏,使分類、聚類質量下降

維歸約的線性代數技術:主成分分析pca、principal components analysi、奇異值分解svd、singular value decomposition

嵌入:將特徵選擇嵌入到資料探勘演算法(分類)

包裝:將目標演算法作為特徵集評估演算法

特徵選擇過程:子集評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證

特徵加權:給特徵計算乙個權值

特徵建立:由原屬性建立新的屬性集;三種特徵建立方法:

特徵提取:對原資料的屬性建立,如圖象根據人臉邊界,提取出人臉分類

對映資料到新的空間:更好的特徵來揭示資料的重要性

特徵構造:原特徵不適合資料探勘,可以構造新特徵,如密度

離散化和二元化:分類演算法要求資料是分類屬性形式,;關聯模式的演算法要求資料是二元屬性形式,這就需要將連續屬性變換成分類屬性或二元屬性

監督和非監督:非監督離散化就是不使用類資訊,等寬、等頻率、等深方法;監督離散化利用類資訊離散化,其中有熵(區間混亂程度)

過多值的分類屬性:型別相近的分一類,如係和專業

變數變換:

簡單函式:如非線性回歸中的值變換;考慮變換後是否保序

規範化:某種方法組合不同變數,避免較大值域左右結果,如考慮用年齡和收入對兩人比較,引入相似度和相異度;均值和標準差容易受離群點影響,可以用中位數和絕對標準差來替代

鄰近度表示相似性和相異性(距離)

資料物件之間的相異度:

距離:兩點之間的距離有三個性質:非負性、對稱性、三角不等式;

非度量的相異度,集合差:集合的相異度定義為(集合1-集合2的個數)+(集合2-集合1的個數)

資料物件間的相似度:

相似度的性質:非負性、對稱性

鄰近性度量的例子:

二元資料的相似性度量:smc=(值匹配的屬性個數/屬性個數)和jaccard係數=(匹配的個數/不涉及0-0匹配的屬性個數)

余弦相似度:向量的相似度

廣義jaccard係數:用於文件資料

鄰近度計算問題:

鄰近度的三個問題:

屬性具有不同尺度時

物件具有不同型別屬性如何計算物件間的鄰近度

屬性具有不同權重時,如何計算鄰近度

組合異種屬性的相似度:某些屬性是非對稱屬性,如果兩物件的非對稱屬性都為0時,則計算忽略該屬性,否則用總相似度公式(照舊)

使用權值:計算加入k屬性的權值

選取正確的鄰近度度量:鄰近度度量與資料型別相適應

稠密的、連續的資料:距離度量

稀疏資料:常常包含非對稱屬性,忽略0-0匹配的相似性度量;余弦、jaccard和廣義jaccard度量

相似性和相異性的度量

相似性和想異性是重要的概念,被許多資料探勘技術所使用 聚類 最近鄰分類 異常檢測等 在許多情況下,一旦計算出相似性或相異性,就不再需要原始資料了 這種方法可以看做將資料變換到相似性 相異性 空間,然後進行分析 鄰近度 proximity 相關 歐幾里得距離 jaccard距離 余弦相似性 稠密資料 ...

初學資料探勘 相似性度量 二

根據相似性從高到底排序。def topmatchs prefs,person,n 5,similarity sim pearson scores similarity prefs,person,other other for other in prefs if other person scores...

初學資料探勘 相似性度量 二

根據相似性從高到底排序。def topmatchs prefs,person,n 5,similarity sim pearson scores similarity prefs,person,other other for other in prefs if other person scores...