資料探勘 (三) 資料預處理

2021-09-02 13:55:49 字數 2981 閱讀 5684

(1)準確性

(2)完整性

(3)一致性

(4)時效性

(5)可信性:反映有多少資料是使用者信賴的

(6)可解釋性:反映資料是否容易理解

改進資料質量,有助於提高其後的挖掘過程的準確率和效率,是知識發現過程的重要步驟

(1)資料清理:資料清理例程通過填寫缺失的值,光滑雜訊資料,識別或刪除離群點,並解決糾正資料中的不一致性來清理資料

(2)資料整合:整合多個資料庫、資料立方體或檔案,將多個資料來源中的資料合併,存放在乙個一致的資料儲存中,如存放在資料倉儲中

(3)資料歸約:得到資料集的簡化表示,小得多,但能夠產生同樣的分析結果;包括維歸約和數值歸約

(4)資料變換:規範化、資料離散化和概念分層等

(1)忽略元組:缺少類標號時這樣做

(2)人工填寫缺失值:費時,當資料集大、缺失很多值時行不通

(3)使用乙個全域性變數填充缺失值:將缺失的屬性值用同乙個常量如「unknown」替換

(4)使用屬性的中心度量(如均值或中位數)填充缺失值

(5)使用於給定元組屬同一類的所有樣本的屬性均值或中位數

(6)使用最可能的值填充缺失值:使用回歸、貝葉斯形式化方法的基於推理的工具或決策樹歸納確定

雜訊:被測量的變數的隨機誤差或方差;

資料光滑技術(去掉雜訊):

(1)分箱: 通過考察資料的近鄰(即周圍的值)來光滑有序資料值,這些有序的值被分布到一些桶或箱中,區域性光滑;

有用箱均值光滑、用箱中位數光滑、用箱邊界光滑

(2)回歸: 用乙個函式擬合資料來光滑資料

(3)離散點分析:通過如聚類來檢測離群點

偏差檢測:根據唯一性規則、連續性規則和空值規則考察資料

商業工具進行偏差檢測: 資料清洗工具、資料審計工具、資料遷移工具、etl(提取/變換/裝入)工具

有些冗餘可以用相關分析檢測到,給定兩個屬性,這種分析可以再根據可用的資料,度量乙個熟悉能在多大程度上蘊含另乙個

(1)標稱資料的卡方檢驗

(3)數值資料的協方差

(1)維歸約:減少所考慮的隨機變數或屬性的個數;

維歸約方法有:小波變換、主成分分析、屬性子集選擇

(2)數量歸約: 用替代的、較小的資料表示形式替換原資料,這些技術可以是引數的或非引數的

引數方法:使用模型估計資料,使得一般只需要存放模型引數,而不是實際資料,比如回歸和對數-線性模型

非引數方法:直方圖、聚類、抽樣和資料立方體聚變

(3)資料壓縮: 使用變換,以便的帶原資料的歸約或壓縮表示;可分為無損的和有損的

(1)離散小波變換(dwt):

是一種線性訊號處理技術,用於資料向量x時,將它變換成不同的數值小波係數向量 x』,兩個向量具有相同的長度;

當這種技術用於資料歸約時,每個元組看做乙個n維資料向量,描述n個資料庫屬性在元組上的n個測量值

(2)傅利葉變換(dft):一種涉及正弦和余弦的訊號處理技術

(3)流行的小波變換有:haar_2、daubechies-4和daubechies-6

(4)離散小波變換的一般過程使用:層次金字塔演算法,在每次迭代時將資料減半,導致計算速度很快

從n個屬性或維描述的遠足或資料向量中搜尋k個最能代表資料的n維正交向量,這樣原資料投影到乙個小得多的空間上,導致維歸約;

通過建立乙個替換的、較小的變數集「組合」屬性的基本要素,原資料可以投影到該較小的集合中;

pca通常能揭示先前未曾察覺的聯絡,並因此允許解釋不尋常的結果;

pca能更好處理稀疏資料,小波變換適合高維資料

通過刪除不相關或冗餘的屬性或維減少資料量;

目標是找出最小屬性集,使得資料類的概率分布盡可能地接近使用所有屬性得到的原分布,減少了出現在發現模式上的屬性數目,使得模式更易於理解

通常使用壓縮搜尋空間的啟發式演算法:

(1)逐步向前選擇

(2)逐步向後刪除

(3)逐步向前選擇和逐步向後刪除的組合

(4)決策樹的歸納

對資料建模,使之擬合到一條直線

對數線性模型

單值桶;劃分規則:等寬、等頻;存放高頻率的離群點,單值桶很有用

將物件劃分為群或簇,使得在乙個簇中的物件互相相似。而與其他簇中的物件相異

簇的質量度量:(1)直徑 (2)形心

用資料的小得多的隨機樣本表示大型資料集;

常用的抽樣方法:

(1)無放回簡單隨機抽樣(srswor)

(2)有放回簡單隨機抽樣(srswr)

(3)簇抽樣

(4)分層抽樣

抽樣進行資料歸約的優點:

得到樣本的花費正比例於樣本集的大小,而不是資料集的大小;抽樣最常用來估計聚集查詢的回答

基本方體:在最低抽象層建立的立方體,應當對應於感興趣的個體實體(即對應於分析有用的)

頂點立方:最高層抽象的立方體

(1)光滑:去掉資料中的雜訊,包括分箱、回歸和聚類

(2)屬性構造(或特徵構造):可以由給定的屬性構造新的屬性並新增到屬性集中,以幫助挖掘過程

(3)聚集:對資料進行彙總或聚集,通常用來為多個抽象層的資料分析構造資料立方體

(4)規範化:把屬性資料按比例縮放,使之落入乙個特定的小區間

(5)離散化:數值屬性的原始值用區間標籤或概念標籤替換

(6)由標稱資料產生概念分層

賦予所有屬性相等的權重;對於設計神經網路的分類演算法或基於距離度量的分類(如最近鄰分類)和聚類,規範化特別有用

規範法方法:

(1)最小-最大規範化:保持原始資料值之間的聯絡

(2)z分數規範化

(3)小數定標規範化:通過移動屬性a四維值的小數點位置進行規範化

一種基於指定的箱個數的自頂向下的**技術;不使用類資訊,是一種非監督的離散方法

非監督離散化技術

(1)聚類:

(2)決策樹:使用自頂向下劃分方法;使用類標號,是監督的方法

標稱資料概念分層的產生方法:

(1)由使用者或專家在模式級顯示地說明屬性的部分序

(2)通過顯示資料分組說明分層結構的一部分

(3)說明屬性集但不說明他們的偏序

(4)只說明部分屬性集

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘 資料預處理

1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...