資料探勘預處理

2022-09-07 15:06:20 字數 2267 閱讀 5082

資料預處理的主要任務如下:

(1)資料清理:填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性

(2)資料整合:整合多個資料庫,資料立方體,檔案

(3)資料變換:規範化(消除冗餘屬性)和聚集(資料彙總),將資料從乙個較大的子空間投影到乙個較小的子空間

(4)資料歸約:得到資料集的壓縮表示,量小,但可以得到相近或相同的結果

(5)資料離散化:資料規約的一部分,通過概念分層和資料的離散化來規約資料,對數字型資料比較重要。

1.資料清洗

(1)處理空缺值:

a.  忽略元組

b.人工填寫空缺值

c.使用乙個全域性變數填充空缺值

d.使用屬性的平均值填充空缺值

e.使用與給定元組屬同一類的所有樣本的平均值

f.使用最可能的值填充空缺值,使用像bayesian公式或判定樹這樣的基於推理的方法(目前最流行的方法是基於這個思路的)

注意:並非所有的空缺值都是說資料有錯誤,如果該值允許空缺值,那麼說明資料是沒問題的,但是應該給與空缺值乙個合理的意義。

2.處理雜訊資料

雜訊:乙個測量變數中的隨機錯誤或偏差

a.分箱(binning)(等深或等寬分箱)

首先排序資料,並將他們分到等深的箱中

然後可以按箱的平均值平滑,按箱中值平滑,按箱的邊界值平滑

b.聚類:檢測並且去除孤立點

c.計算機和人工檢查結合:計算機檢測可疑資料,然後對他們進行人工判斷

d.回歸:通過讓資料適應回歸函式來平滑資料,對連續的數字型資料較好

3.資料變換

a.平滑:去除資料中的雜訊

b.聚集:資料彙總,資料立方體的構建,資料立方體的計算/物化(乙個資料立方體在方體的最底層叫基本方體,基本方體就是已知存在的資料,對現有的資料按照不同維度進行彙總就可以得到不同層次的方體,所有的方體聯合起來叫做乙個方體的格,也叫資料立方體。資料立方體中所涉及到的計算就是彙總)

c.資料概化:沿概念分層向上彙總,資料立方體的不同的維之間可能存在著乙個概念分層的關係

d.規範化:將資料按比例縮放,使這些資料落入到乙個較小的特定的區間之內。方法有:

a.最小----最大規範化

b.z-score規範化

c.小數定標規範化

e.屬性的構造:通過現有屬性構造新的屬性,並新增到屬性集中

4.資料歸約

(1)資料歸約可以用來得到資料集的歸約表示,它小得多,但可以產生相同(或幾乎相同的)分析結果

(2)資料歸約策略

a.資料立方體聚集:

資料立方體是根據不同的維度對資料進行彙總,立方體的越頂層,其彙總程度就越高,資料量就越少。

對資料的表示就越概化。最底層的方體對應於基本方體,基本方體對應於感興趣的實體。

在資料立方體中存在著不同級別的彙總,資料立方體可以看做方體的格,每乙個較高層次的抽象將進一步減少結果資料集。

資料立方體提供了對預計算的彙總資料的快速訪問,原則是使用與給定任務相關的最小方體,並且在可能的情況下,對於彙總資料的查詢應當使用資料立方體。

可以減少出現在發現模式上的屬性的數目,使得模式便於理解。

主要方法有:啟發式的(探索式的try and error)方法,該方法包括逐步向前選擇(從空屬性集開始,每次選擇都選擇當前屬性集中最符合的目標,

最好的屬性,加到當前的屬性集中,這樣逐步的向前選擇,把有用的屬性乙個乙個的新增進來),

逐步向後刪除(從屬性全集開始,每次刪除還在當前屬性集中的最不適合的那個屬性,最壞的屬性,這樣乙個乙個的刪除,最後留下來的就是相關的屬性),

向前選擇和向後刪除相結合(每次選擇乙個最好的屬性,並且刪除乙個最壞的屬性),判定歸納樹

c.資料壓縮:使用一些編碼機制來壓縮資料集。無失真壓縮(可以根據壓縮之後的資料完整的構造出壓縮之前的資料wrar. zip等,如字串壓縮)

兩種有損資料壓縮的方法:小波變換和主要成分分析

d.數值歸約:使用較小的,替代的資料來估計,替換,表示原資料(用引數模型):通過選擇替代的,較小的資料表示形式來減少資料量。

方法主要有:有參方法(使用乙個引數模型來估計資料,最後只要儲存引數即可,有線性回歸方法,多元回歸,對數線性模型(近似離散的多維資料概率分布))和

無參方法(直方圖(將某屬性的資料劃分為不相交的子集或桶,桶中放置該值的出現頻率,其中桶和屬性值的劃分規則有:等深,等寬,v-最優,maxdiff),

聚類(將資料集劃分為聚類,然後通過聚類來表示資料集,如果資料可以組成各種不同的聚類,則該技術非常有效,反之如果資料界線模糊,則該方法無效。

資料探勘預處理

資料預處理的主要任務如下 1 資料清理 填寫空缺值,平滑雜訊資料,識別,刪除孤立點,解決不一致性 2 資料整合 整合多個資料庫,資料立方體,檔案 3 資料變換 規範化 消除冗餘屬性 和聚集 資料彙總 將資料從乙個較大的子空間投影到乙個較小的子空間 4 資料歸約 得到資料集的壓縮表示,量小,但可以得到...

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘 資料預處理

1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...