從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於:
我們要了解資料清洗,就需理解資料的內涵和外延
常見的資料有:
其中,比較重要比較常見的分析資料是**資料。這裡重點介紹一些關於**資料的內容。
**資料
資料物件由屬性(attributes)及其值(value)構成
**資料的特徵
什麼是資料清洗 ?資料清洗是從乙個充滿拼寫錯誤,缺失值,異常值等問題的原始資料集(raw data)通過資料轉換,缺失處理,異常處理等手段對映為乙個符合質量要求的「新」資料集(consistent data)的過程。
資料清洗在大資料分析流程中的位置:
為什麼要資料清洗?
資料存在的問題:
多資料來源
如何評估資料的質量?
常用的評價資料質量的指標有以下幾種:
準確性:考察資料集記錄的資訊是否存在異常或錯誤
一致性:考察資料是否符合統一規範,資料記錄是否保持統一格式
資料一致性問題通常存在於資料整合階段:
時效性:考察資料從產生到分析的時間間隔,也稱為資料的延時時長
完整性:考察資料資訊是否存在缺失,包括資料集的字段以及資料記錄
資料重複:考察資料特徵,資料記錄的重複情況
易用性和可維護性:考察資料的使用和訪問情況,以及資料的更新,維護狀況
資料冗餘:考察資料集特徵之間的相關性
如果乙個特徵能由另外的特徵推導出來,那麼該特徵可能是冗餘的。比如,年齡可以由生日推算獲得,那麼年齡和生日之間存在冗餘。使用定量的相關分析考察特徵之間的冗餘程度
資料初步處理
缺失值處理
異常值處理
資料轉換
資料清洗之微博時間清洗
資料清洗之微博時間清洗 爬取微博的時候時間格式比較亂,存到資料庫要統一成datatime型別,所以需要用到對時間的轉換 這裡是對time模組和datetime的模組的使用。對於當天的有三種 40秒前 50分鐘前 今天 08 12 針對這三種,第一步要做的是獲取當前的年月日 import dateti...
excel資料清洗 資料清洗excel
資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...
資料清洗技術 Excel資料清洗
1 了解 excel 的基本功能和用途 2 掌握 excel 資料清洗的基本步驟 3 了解 excel 資料清洗的方法 4 掌握 excel 常用的資料分析函式 5 掌握 excel 資料清洗常用的函式 作業系統 windows xp 7 8 10 excel版本 2007 2019 jdk版本 1...