資料型別:定量、定性
屬性是物件的性質、特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則(函式)
屬性型別:屬性的性質不必與用來度量他的值的性質相同
屬性的不同:相異性、序、加法、乘法
四種屬性型別:標稱和序數(分類的、定性的)、區間和比率(數值的、定量的);非對稱屬性:如果屬性值具有相同的權重,則為對稱的;反之,為非對稱的
資料集的型別:
資料集的特徵:維度、稀疏性、解析度
記錄資料:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣
基於圖形的資料
資料質量
資料清洗:測量誤差與資料收集誤差、雜訊、偽像(確定的錯誤的結果)
精度、標準差
偏倚:樣本與總體引數之差
精確度:測量值與實際值之間的接近度
離群點:不同於噪音,本身是合法的,有時作為研究物件
遺漏值不一致的值
重複資料:去重複
聚集:將多個物件合併為單個物件;定量屬性求和或平均值聚集,定性屬性可以忽略或彙總成乙個集合;聚集可以歸納成小資料集,演算法開銷小;
抽樣:抽取有代表性的樣本(近似的具有與原資料集相同的性質);漸次抽樣:合適的樣本量很難確定,從乙個小樣本開始,增加樣本量直到足夠容量的樣本
維歸約:
將舊屬性合併在一起得到新屬性;
維災難:維度增加,資料在空間中變得稀疏,使分類、聚類質量下降
維歸約的線性代數技術:主成分分析pca、principal components analysi、奇異值分解svd、singular value decomposition
嵌入:將特徵選擇嵌入到資料探勘演算法(分類)
包裝:將目標演算法作為特徵集評估演算法
特徵選擇過程:子集評估度量、控制新的特徵子集產生的搜尋策略、停止搜尋判斷、驗證
特徵加權:給特徵計算乙個權值
特徵建立:由原屬性建立新的屬性集;三種特徵建立方法:
特徵提取:對原資料的屬性建立,如圖象根據人臉邊界,提取出人臉分類
對映資料到新的空間:更好的特徵來揭示資料的重要性
特徵構造:原特徵不適合資料探勘,可以構造新特徵,如密度
離散化和二元化:分類演算法要求資料是分類屬性形式,;關聯模式的演算法要求資料是二元屬性形式,這就需要將連續屬性變換成分類屬性或二元屬性
監督和非監督:非監督離散化就是不使用類資訊,等寬、等頻率、等深方法;監督離散化利用類資訊離散化,其中有熵(區間混亂程度)
過多值的分類屬性:型別相近的分一類,如係和專業
變數變換:
簡單函式:如非線性回歸中的值變換;考慮變換後是否保序
規範化:某種方法組合不同變數,避免較大值域左右結果,如考慮用年齡和收入對兩人比較,引入相似度和相異度;均值和標準差容易受離群點影響,可以用中位數和絕對標準差來替代
鄰近度表示相似性和相異性(距離)
資料物件之間的相異度:
距離:兩點之間的距離有三個性質:非負性、對稱性、三角不等式;
非度量的相異度,集合差:集合的相異度定義為(集合1-集合2的個數)+(集合2-集合1的個數)
資料物件間的相似度:
相似度的性質:非負性、對稱性
鄰近性度量的例子:
二元資料的相似性度量:smc=(值匹配的屬性個數/屬性個數)和jaccard係數=(匹配的個數/不涉及0-0匹配的屬性個數)
余弦相似度:向量的相似度
廣義jaccard係數:用於文件資料
鄰近度計算問題:
鄰近度的三個問題:
屬性具有不同尺度時
物件具有不同型別屬性如何計算物件間的鄰近度
屬性具有不同權重時,如何計算鄰近度
組合異種屬性的相似度:某些屬性是非對稱屬性,如果兩物件的非對稱屬性都為0時,則計算忽略該屬性,否則用總相似度公式(照舊)
使用權值:計算加入k屬性的權值
選取正確的鄰近度度量:鄰近度度量與資料型別相適應
稠密的、連續的資料:距離度量
稀疏資料:常常包含非對稱屬性,忽略0-0匹配的相似性度量;余弦、jaccard和廣義jaccard度量
相似性和相異性的度量
相似性和想異性是重要的概念,被許多資料探勘技術所使用 聚類 最近鄰分類 異常檢測等 在許多情況下,一旦計算出相似性或相異性,就不再需要原始資料了 這種方法可以看做將資料變換到相似性 相異性 空間,然後進行分析 鄰近度 proximity 相關 歐幾里得距離 jaccard距離 余弦相似性 稠密資料 ...
初學資料探勘 相似性度量 二
根據相似性從高到底排序。def topmatchs prefs,person,n 5,similarity sim pearson scores similarity prefs,person,other other for other in prefs if other person scores...
初學資料探勘 相似性度量 二
根據相似性從高到底排序。def topmatchs prefs,person,n 5,similarity sim pearson scores similarity prefs,person,other other for other in prefs if other person scores...