資料清洗 資料科學

2021-09-29 20:01:35 字數 1440 閱讀 1323

資料清洗(data cleansing)指刪除、更正資料庫中錯誤、不完整、格式有誤或多餘的資料。資料清洗不僅僅更正錯誤,同樣加強來自各個單獨資訊系統不同資料間的一致性。專門的資料清洗軟體能夠自動檢測資料檔案,更正錯誤資料,並用全企業一致的格式整合資料。

——wikipedia

資料清理的第一步是從資料集中刪除不需要的觀測值,它包括重複或不相關的觀察結果。

重複觀察

重複觀察最常見於資料收集期間,例如當:

不相關的觀察資料清理的第二步是修復結構性錯誤。結構性錯誤主要是指觀測、資料傳輸或儲存管理過程**現的錯誤,如資料大小寫不一致、拼寫錯誤、語義相同的資料歸類等問題。

過濾不需要的異常值

離群值可能會導致某些型別的模型出現問題。 例如,線性回歸模型對異常值的健壯性不如決策樹模型。但不要單純因為「big data」而刪除,要保證刪除的資料的錯誤性都是有據可依的,例如通過可疑度量來衡量資料的真實性。

去重應把去重放在格式內容清洗之後(多個空格導致工具認為「王小明」和「王 小明」不是乙個人,去重失敗)。

當然,如果資料不是人工錄入的,那麼簡單去重即可。

去除不合理值

對於不合理數可用但不限於箱形圖(box-plot)

修正矛盾內容

有些欄位是可以互相驗證的,例如:身份證號是1101031980******xx,然後年齡填18歲。在這種時候,需要根據欄位的資料**,來判定哪個字段提供的資訊更為可靠,去除或重構不可靠的字段。

這一步驟在之後的資料分析建模過程中有可能重複,因為即使問題很簡單,也並非所有問題都能夠一次找出,我們能做的是使用工具和方法,儘量減少問題出現的可能性,使分析過程更為高效。

首先,不能簡單地忽略資料集中的缺失值。 由於大多數演算法都不接受缺失值,因此,必須以某種實際方式處理它們。

常用的處理方式為:

刪除缺失值不是最佳選擇,因為刪除觀察值時會刪除資訊。

插值缺失值不是最佳選擇,因為該值最初是缺失的,但是已將其填充,無論插值方法多麼複雜,總是會導致資訊丟失。

應該始終告訴演算法,缺少值是因為缺少可提供的資訊

處理分類特徵缺失資料的最佳方法是簡單地將其標記為「缺失」!這意味著

對於缺少的數字資料,應標記並填充值

使用缺失的指示變數標記觀察結果

然後,將原始缺失值填充為0,以符合無缺失值的技術要求

通過使用標記和填充的這種技術,實質上是在允許演算法估計缺失的最佳常數,而不僅僅是用均值填充。

如果你的資料有多個**,那麼有必要進行關聯性驗證。如同資料庫中的外來鍵一樣,可以從其他途徑(其他工程、客戶方等)來獲取當前所需的資料。

嚴格意義上來說,這已經脫離資料清洗的範疇了,而且關聯資料變動在資料庫模型中就應該涉及,但多個**的資料整合是非常複雜的工作,一定要注意資料之間的關聯性,盡量避免在分析過程**現資料之間互相矛盾。

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...

資料清洗技術 Excel資料清洗

1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...