資料清洗(data cleaning)
[隱藏]
[編輯]
資料清洗是指發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料一致性,處理無效值和缺失值等。與問卷審核不同,錄入後的資料清理一般是由計算機而不是人工完成。
1.一致性檢查
一致性檢查(consistency check)是根據每個變數的合理取值範圍和相互關係,檢查資料是否合乎要求,發現超出正常範圍、邏輯上不合理或者相互矛盾的資料。例如,用1-7級量表測量的變數出現了0值,體重出現了負數,都應視為超出正常值域範圍。spss、sas、和excel等計算機軟體都能夠根據定義的取值範圍,自動識別每個超出範圍的變數值。具有邏輯上不一致性的答案可能以多種形式出現:例如,許多調查物件說自己開車上班,又報告沒有汽車;或者調查物件報告自己是某品牌的重度購買者和使用者,但同時又在熟悉程度量表上給了很低的分值。發現不一致時,要列出問卷序號、記錄序號、變數名稱、錯誤類別等,便於進一步核對和糾正。
2.無效值和
缺失值的處理
由於調查、編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。
估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦法就是根據調查物件對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查物件的家庭收入推算擁有這一產品的可能性。
整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的資料。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。
變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。
成對刪除(pairwise deletion)是用乙個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留資料集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了資料集中的可用資訊。
採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證資料的完整性。
[ 編輯]
資料清洗原理:利用有關技術如數理統計、資料探勘或預定義的清理規則將髒資料轉化為滿足資料質量要求的資料,如圖所示。
編輯]
按資料清洗的實現方式與範圍,可分為4種:
(1) 手工實現,通過人工檢查,只要投入足夠的人力物力財力,也能發現所有錯誤,但效率低下。在大資料量的情況下,幾乎是不可能的。
(2) 通過專門編寫的應用程式,這種方法能解決某個特定的問題,但不夠靈活,特別是在清理過程需要反覆進行(一般來說,資料清理一遍就達到要求的很少)時,導致程式複雜,清理過程變化時,工作量大。而且這種方法也沒有充分利用目前資料庫提供的強大資料處理能力 。
(4) 與特定應用領域無關的資料清理,這一部分的研究主要集中在清理重複的記錄上,如data cleanser data blade module ,integrity 系統等。
這4種實現方法,由於後兩種具有某種通用性,較大的實用性,引起了越來越多的注意。但是不管哪種方法,大致都由三個階段組成: ①資料分析、定義錯誤型別; ②搜尋、識別錯誤記錄; ③修正錯誤。
第一階段,儘管已有一些資料分析工具,但仍以人工分析為主。在錯誤型別分為兩大類:單資料來源與多資料來源,並將它們又各分為結構級與記錄級錯誤。這種分類非常適合於解決資料倉儲中的資料清理問題。
第二階段,有兩種基本的思路用於識別錯誤:一種是發掘資料中存在的模式,然後利用這些模式清理資料;另一種是基於資料的,根據預定義的清理規則,查詢不匹配的記錄。後者用得更多。
第三階段,某些特定領域能夠根據發現的錯誤模式,編制程式或借助於外部標準原始檔、資料字典一定程度上修正錯誤;對數值字段,有時能根據數理統計知識自動修正,但經常須編制複雜的程式或借助於人工干預完成。
絕大部分資料清理方案提供介面用於編制清理程式。它們一般來說包括很多耗時的排序、比較、匹配過程,且這些過程多次重複,使用者必須等待較長時間。在乙個互動式的資料清理方案。系統將錯誤檢測與清理緊密結合起來,使用者能通過直觀的圖形化介面一步步地指定清理操作,且能立即看到此時的清理結果, (僅僅在所見的資料上進行清理,所以速度很快) 不滿意清理效果時還能撤銷上一步的操作,最後將所有清理操作編譯執行。並且這種方案對清理迴圈錯誤非常有效。
許多資料清理工具提供了描述性語言解決使用者友好性,降低使用者程式設計複雜度。如arktos 方案提供了xadl 語言(一種基於預定義的dtd 的xml 語言) 、sadl 語言,在atdx 提供了一套巨集操作(來自於sql 語句及外部函式) ,一種sql2like 命令語言,這些描述性語言都在一定程度上減輕了使用者的程式設計難度,但各系統一般不具有互操作性,不能通用。
資料清理屬於乙個較新的研究領域,直接針對這方面的研究並不多,中文資料清理更少。現在的研究主要為解決兩個問題:發現異常、清理重覆記錄。
[ 編輯]
一般來說,資料清理是將資料庫精簡以除去重覆記錄,並使剩餘部分轉換成標準可接收格式的過程。資料清理標準模型是將資料輸入到資料清理處理器,通過一系列步驟「 清理」資料,然後以期望的格式輸出清理過的資料(如上圖所示)。資料清理從資料的準確性、完整性、一致性、惟一性、適時性、有效性幾個方面來處理資料的丟失值、越界值、不一致**、重複資料等問題。
資料清理一般針對具體應用,因而難以歸納統一的方法和步驟,但是根據資料不同可以給出相應的資料清理方法。
1.解決不完整資料( 即值缺失)的方法
大多數情況下,缺失的值必須手工填入( 即手工清理)。當然,某些缺失值可以從本資料來源或其它資料來源推導出來,這就可以用平均值、最大值、最小值或更為複雜的概率估計代替缺失的值,從而達到清理的目的。
2.錯誤值的檢測及解決方法
用統計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布或回歸方程的值,也可以用簡單規則庫( 常識性規則、業務特定規則等)檢查資料值,或使用不同屬性間的約束、外部的資料來檢測和清理資料。
3.重覆記錄的檢測及消除方法
資料庫中屬性值相同的記錄被認為是重覆記錄,通過判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合併為一條記錄(即合併/清除)。合併/清除是消重的基本方法。
4.不一致性( 資料來源內部及資料來源之間)的檢測及解決方法
從多資料來源整合的資料可能有語義衝突,可定義完整性約束用於檢測不一致性,也可通過分析資料發現聯絡,從而使得資料保持一致。目前開發的資料清理工具大致可分為三類。
資料遷移工具允許指定簡單的轉換規則,如:將字串gender替換成***。***公司的prismwarehouse是乙個流行的工具,就屬於這類。
資料清洗工具使用領域特有的知識( 如,郵政位址)對資料作清洗。它們通常採用語法分析和模糊匹配技術完成對多資料來源資料的清理。某些工具可以指明源的「 相對清潔程度」。工具integrity和trillum屬於這一類。
資料審計工具可以通過掃瞄資料發現規律和聯絡。因此,這類工具可以看作是資料探勘工具的變形。
[ 編輯]
[編輯]
↑ 塗平.營銷研究方法與應用[m].北京大學出版社,2008.9.
↑ 2.0
2.1楊輔祥,劉雲超,段智華等.資料清理綜述[j].計算機應用研究,2002,19(3):3-5.
↑ 許翔,毛婕.資料清理技術在軟體開發中的應用研究[j].計算機時代,2004,(8):25-26
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
excel資料清洗 資料清洗excel
資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...
資料清洗技術 Excel資料清洗
1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...