序數:能確定物件的序,即大小關係。(,>=)例:礦石程度(好,較好,最好)
區間:可以進行差值比較。(+,-)
例:日曆日期
比例:除了能進行差值比較還能進行比率比較 。 (*,/)例:長度
測量誤差:記錄的值與實際值不同 誤差=測量值-實際值
資料收集錯誤:遺漏資料或者不當地包含了其他資料
雜訊:測量誤差的隨機部分,使值被扭曲或者加入了謬誤物件 通常用於包含時間或者空間的分量
偽像:確定性失真 如一組**在同一地方出現條紋
精度:重複測量值之間的接近程度。通常用標準差度量
偏倚:測量值與被測量之間的系統的變差。通常用均值-測出的已知值度量
聚集:將兩個或多個物件合併成單個物件 通常通過求和或者求平均值
抽樣:選擇資料物件子集:簡單隨機抽樣,分層抽樣,漸進抽樣
維歸約:選擇舊屬性的子集得到新屬性:成為特徵子集選擇或特徵選擇
特徵子集選擇:嵌入方法,過濾方法,包裝方法
線性代數技術:主成分分析(pca)用於連續屬性,奇異值分解(svd)
維歸約:通過建立新屬性,將一些舊屬性合併在一起降低資料集的維度。
特徵建立:特徵提取,對映資料到新空間(傅利葉變換或者小波變換),
特徵構造:由乙個或者多個原始特徵構造新特徵例:密度=質量/體積 更好對材料分類
離散化和二元化:
離散化:連續屬性轉變為離散屬性。本質:選擇多少個分割點和確定分割點位置
二元化:將m個分類值按照[0,m-1]賦值,用n=log2m取天棚個二進位來表示。分為有關聯的和非對稱的(關聯分析)
變數變換:
簡單函式:平方根,對數,倒數 常用來變換成高斯分布
規範化和標準化:x=(x-平均數)/標準差
因為受離群值影響很大,用中位數代替均值。用絕對標準差取代標準差
鄰近度:表示相似性或者相異性。
將相似度轉換成相異度或相反,或者把鄰近度變換到乙個特定空間,如[0,1]
一般來說,相似度轉換到[0,1]由下公式給出:s'=(s-mins)/(maxs-mins)
將相似度變換成相異度或相反 。
歐幾里得距離
閔可夫斯基距離來推廣
度量:滿足非負性,對稱性,三角不等式。
非度量的相異度:集合差,時間
只能用於二元屬性:
可用於所有屬性:
距離度量的標準化和相關性 使用mahalanobis距離
組合異種屬性的相似度:如果兩個物件非對稱屬性上的值都為0,則計算相似度時忽略他們,可以很好地處理遺漏值
使用權值
對於稠密的,連續的資料,通常使用距離 如歐幾里得距離
對於稀疏的,常常包含非對稱屬性,通常忽略0-0匹配,使用余弦,jaccard係數和廣義jaccard係數是合適的
資料探勘導論
20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...
資料探勘導論
誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...
《資料探勘導論》學習筆記(二)
資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...