資料質量
資料探勘使用的資料通常是為其他用途收集或者收集的時候還沒有明確目的。因此資料常常不能在資料的源頭控制質量。為了避免資料質量的問題,所以資料探勘著眼於兩個方面:資料質量問題的檢測和糾正(資料清理);使用可以容忍低質量資料的演算法。
測量和資料收集問題完美的資料在實際中幾乎是不存在的,對於存在的資料質量問題,我們先定義測量誤差和資料收集錯誤,然後考慮測量誤差的各種問題:雜訊,偽像,偏倚,精度和準確度。接著討論測量和資料收集的資料質量問題:離群點,遺漏和不一致的值,重複資料。
測量誤差(measurements error)是指測量過程中導致的問題,如:記錄的值與實際的值不相同。資料收集錯誤(data collection error)是指諸如遺漏資料物件或屬性值,或不當地包含了其他資料物件等錯誤,如:特定的物種研究可能混入相似物種的資料。測量和資料收集錯誤可能是系統的也可能是隨機的。
雜訊是測量誤差的隨即部分,如2-5顯示被隨機雜訊干擾後的時間序列,如果雜訊非常的多,甚至會掩蓋原有的資料。
圖2-6顯示的三組被新增雜訊點前後的資料點集。
雜訊通常用於包含時間或空間分量的資料,在這些情況下,可以使用圖形或訊號處理技術來降噪,但完全的消除是非常困難的。所以資料探勘都關注涉及魯棒演算法(robust algorithm),即在有雜訊干擾下也能產生被接受的結果。資料錯誤也可能是更確定性現象的結果,如一組資料在同乙個地方出現相同的錯誤。這種確定性失真稱作偽像(artifact)
精度(precision):重複測量值之間的接近程度偏倚(bias):測量值與被測量值之間的系統的變差
假定我們有1克的標準砝碼,想評估新天平的精度和偏倚,稱重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}這些值的平均值是1.001,因此偏倚是0.001,。用標準差度量,精度是0.013.
準確率:被測量的測量值與實際值之間的接近度。
準確度依賴於精度和偏倚,另乙個重要的方面是有效數字(significant digit)的使用,其目的是僅使用資料精確度所能確定的數字位數表示測量或計算結果。
離群點(outlier)是在某種意義上具有不同與資料集 中其他 大部分 資料物件的特徵 的資料物件,或是相對於該屬性的典型值來說不尋常的屬性值。稱為異常(anomalous)物件或異常值。需要注意的是區別雜訊和離群點:離群點可以是合法的資料物件或值。因此不像雜訊,離群點本身是人們感興趣的物件。
遺漏值乙個物件遺漏乙個或多個屬性值的情況還是很平常的,有時甚至還會出現資訊收集不全的情況。但無論何種情況,在資料分析時都應當考慮遺漏值。那怎麼應對遺漏值:
刪除資料物件或屬性估計遺漏值分析時忽略遺漏值
不一致的值資料可能包含不一致的值,如:帳號和密碼因為手誤填寫錯誤等;無論是什麼原因導致不一致的值,重要是能檢測出來,並且糾正。
重複資料資料集可能包含重複的資料物件,對於重複的資料一般都進行檢測和刪除。但做這些步驟之前,得處理兩個問題:如果兩個物件實際代表同乙個物件,則對應的屬性值必然不同,必須解決這些不一致的值。需要避免意外將兩個相似但不重複的資料物件合併在一起;去重複(deduplication)通常表示這一過程。
資料探勘導論 資料質量
資料質量 資料探勘使用的資料通常是為其他用途收集或者收集的時候還沒有明確目的。因此資料常常不能在資料的源頭控制質量。為了避免資料質量的問題,所以資料探勘著眼於兩個方面 資料質量問題的檢測和糾正 資料清理 使用可以容忍低質量資料的演算法。測量和資料收集問題 完美的資料在實際中幾乎是不存在的,對於存在的...
資料探勘導論
20世紀60年代,從檔案處理演化到資料庫系統 20世紀70年代,演化到關聯式資料庫,聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在,研究分布性 多樣性和資料共享等問題,還有基於internet的全球資訊系統 80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站...
資料探勘導論
誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...