資料要滿足應用需求,必須是高質量的。高質量是指:準確性、完整性、一致性、時效性、可信性和可解釋性。
3.1.2 資料預處理的主要任務?
資料預處理的主要步驟是 (不互斥):資料清理、資料整合、資料規約和資料變換。
3.2 資料清理
現實世界的資料一般是不完整的、有雜訊的和不一致的、資料清理例程試圖填充缺失的值、光滑雜訊並識別離群點、糾正資料中的不一致。
忽略元組:如果元組有多個屬性值缺失,可以考慮忽略元組;否則,就不能使用該元組的剩餘屬性值;
人工填寫缺失值:費時,缺失資料量大的時候行不通;
使用乙個全域性常量填充缺失值:比如用unknown或者0等來表示,但是挖掘程式可能會誤以為這些常量有特殊的含義;
使用屬性的中心度量填充缺失值:對於正常的(對稱的)資料,可以用均值填充缺失值;傾斜的資料,可以用中位數;
使用與給定元組屬同一類的所有樣本的屬性均值或中位數:與4類似,但是樣本限制到了同一類;
使用最可能值填充:使用回歸、貝葉斯等推理技術,**缺失值。是比較流行的做法。
注意:資料缺失,不代表資料有錯誤,因為有些情況下,屬性就是沒有值的。
3.2.1 雜訊資料處理辦法
雜訊是被測量的變數的隨機誤差或方差,可以用資料光滑技術來「光滑」資料,去掉雜訊。資料光滑技術有:
分箱(binning):等頻/等寬分箱,箱內可以用均值、中位數、箱邊界光滑;
回歸(redression):用乙個函式擬合資料,如:線性回歸、多元線性回歸;
離群點分析(outlier analysis):通過聚類來檢測離群點
將資料清理作為乙個過程,用一些資料清理工具,如potter's wheel來清理資料,或者是開發資料變換操作的規範說明語言。
3.3 資料整合
資料探勘需要資料整合,合併來自多個資料儲存的資料。
在資料整合中,冗餘是另乙個問題。比如屬性命名不一致導致的冗餘;乙個屬性若是可以由其他屬性匯出,也是冗餘。
有些冗餘可以被相關分析檢測到,相關分析可以根據可用的資料,度量乙個屬效能在多大程度上蘊含另乙個。
標稱屬性,用χ2檢驗;數值屬性,使用相關係數(correlation coefficient)和協方差(covariance),評估乙個屬性是如何隨另乙個屬性變化的。計算方法見p62-65。
處理檢測屬性級別的重複外,還要檢測元組級別的重複。比如:若訂單表中包含收貨人資訊,則同乙個收貨人可能以不同的位址出現在訂單資料庫中。
對於現實世界的同一實體,來自不同資料來源的屬性值可能不同,這可能是因為表示、尺度或編碼不同。例如重量、尺寸等度量單位。
3.4 資料規約
直接處理海量資料需要很長時間,資料規約技術可以得到資料集的規約表示,規約後的資料集比原始資料集小的多,並且保持原始資料的完整性。即:在規約後的資料集上進行挖掘更快,並且會產生與原始資料集近乎相同的結果。
3.4.1 資料規約策略
資料規約策略包括:
維規約、數量規約、資料壓縮。
3.4.2 維規約
減少所考慮的隨機變數或屬性的個數。具體方法有:
小波變換:(看不懂,pass了,我也很無奈)
主成分分析pca:探索最能代表資料的k和n維正交向量(k<=n),把原始資料投影到乙個低維空間。
屬性子集選擇:刪除不相關或冗餘的屬性減少資料量。找出最小屬性集,使得資料類的概率分布盡可能地接近使用所有屬性得到的原分布。
3.4.3 數量規約
用替代的、較小的資料表示形式替換原資料。具體方法有:
回歸和對數線性模型:如線性回歸、多元回歸(y=ax+b)
直方圖:等寬、等頻
聚類:類內相似、類間不同
抽樣:用樣本資料代替原始資料,抽樣方法有:無放回簡單隨機抽樣、有放回簡單隨機抽樣、簇抽樣(粒度:簇)、分層抽樣
資料立方體聚集
3.4.4 資料壓縮
有失真壓縮和無失真壓縮。
3.5 資料變換與資料離散化
在資料變換中,資料被變換或統一成一種適合於挖掘的形式。資料變換策略有:
光滑:去掉資料的雜訊,這類技術包括分箱、回歸和聚類;
屬性構造(特徵構造):根據給定的屬性構造出新的屬性並新增在屬性集中,如根據單價與數量屬性,構造出總價屬性;
聚集:對資料進行彙總或聚集,如將月收入彙總成年收入;
規範化:把屬性資料按比例縮放,使之落入乙個特定的小區間;具體方法有:最小-最大規範化、z分數(z-score規範化)、小數定標規範化:
離散化:數值屬性的原始值用區間標籤或概念標籤替換,如:將具體的年齡替換成youth、adult、senior,可以通過分箱技術、聚類、決策樹等技術離散化。
最小-最大規範化方法:
v'=(v-min)/(max-min)*(new_max-new_min)+new_min
z分數規範化:
v'=(v-mean)/σ
小數定標規範化:
v'=v/10^j j是使得max(v')<1的最小整數
由標稱資料產生概念分層:比如street可以泛化到更高的層次中city或country
第三章,檢索資料
select prod name from products 上述語句利用select 語句從products表中檢索乙個名為prod name的列,所需要的列名在select 關鍵字之後給出,from關鍵字指出從其中檢索資料的表名 select prod name,prod id,prod nam...
第三章 資料定義
建立資料庫 creat database 資料庫名稱 開啟資料庫 use 資料庫名稱 刪除資料庫 drop database 資料庫名稱 更改資料庫名字 sp renameedp 原資料庫名稱 更改後資料庫名稱 建立資料庫student,並開啟 create database student gou...
第三章 堆疊
1.基礎知識 堆疊可以實現很多的應用,遞迴的問題轉化成非遞迴形式,在本質上也是堆疊的問題.它是一種 filo 操作的資料結構,一般也有兩種儲存方式 陣列跟鍊錶實現形式,這裡我給出了鍊錶形式的堆疊模板,裡面包括了基本的堆疊所有的操作,還有兩個比較著名的應用例子,時間倉促,精力比較有限,關於迷宮老鼠還沒...