內容包括兩個部分:
一、什麼是資料清洗
二、資料清洗的常見問題:1處理離群點、2改善資料、3資料調和、4標準化
檢測和去除資料集中的雜訊資料和無關資料,處理遺漏資料,去除空白資料域和知識背景下的白雜訊。通俗來講就是把髒資料清洗掉,提高資料質量。
1.資料清洗常見問題之處理離群點
對離群點最簡單的解釋是:離群點是和其餘資料不匹配的資料點。按照慣例,任何過高、過低或者異常(基於專案背景)的資料都是離群點。作為資料清洗的一部分,資料科學家通常要識別出離群點並用通用的方法解決它:
· 刪除離群點的值,甚至是離群點對應的實際變數。
· 轉換變數值或變數本身。
2.資料清洗常見問題之改善資料
通過改善進行資料清理是另一種常見的技術,新增相關資訊、事實或資料使得資料變得完整(可能更有價值)。這些附加資料的**可以是用資料中現有資訊或從其他**新增資訊進行計算。 基於當前的目的或目標,資料科學家補充的資訊可能用於參考、比較、對比或發現趨勢。
典型的用例包括:
衍生事實計算
對比日曆與財政年度的使用
轉換時區
貨幣轉換
新增當前和前期指標
計算價值,如每天總出貨量
保持緩慢變化的維度
3. 資料清洗常見問題之資料調和
基於研究分析的整體目標,資料科學家可以通過資料調和來轉換、翻譯、或將資料值對映到其他理想值。最普遍的案例是性別或國家**。例如,如果你的文件中將性別編碼為0和1或m和f,你想將資料轉化為一致的male或female。
4.資料清洗常見問題之標準化
大多數主流資料科學家都已經注意到在開始統計研究或分析專案之前,將資料標準化作為資料清理過程一部分的重要性。這是很重要的,如果沒有標準化,量綱不同的資料點對分析的貢獻會不均等。
如果你認為在0到100之間的資料點比0到1範圍內的變數影響更大,你可以理解資料標準化的重要性。使用這些未經過標準化的變數,事實上在分析中賦予較大範圍的變數更多的權重。為了解決這一問題並均衡這些變數,資料科學家試圖將資料轉化為可比的量綱。
資料點的中心化是資料標準化中最常見的例子(儘管還有很多)。為了使資料點中心化,資料科學家把檔案中的每個資料點減去所有資料的平均值。
大資料的那些事兒
資源列表 分布式檔案系統 檔案資料模型 注意 業內存在一些術語混亂,有兩個不同的東西都叫做 列式資料庫 這裡列出的有一些是圍繞 key map 資料模型而建的分布式 持續型資料庫,其中所有的資料都有 可能綜合了 鍵,並與對映中的鍵 值對相關聯。在一些系統中,多個這樣的值對映可以與鍵相關聯,並且這些對...
Python那些事兒 資料放縮
討論如何對資料進行放縮 import numpy as np np.random.seed 10 x np.random.randomint 10,25 1.0 for i in range 10 defmin max x return round round xx min x 1.0 max x ...
object的那些事兒
昨天和大姐qq。說給我看了,今年找到物件。我就在那裡騙他們。說我找了乙個 人。明年去 以後就沒有多少機會見到他們了。呵呵,大姐就說這樣我不聽話,那樣不聽話,不讓我去,說還借我錢買房子,不能去,去了父母白養這麼大了,我總是騙他們,逗他們。以前還騙他們說我出家。有一段時間,工作不順心,我壓力挺大的。不知...