資料清洗步驟

2021-07-22 05:50:51 字數 326 閱讀 2137

資料清洗可以通過5步做好:

1.把所有非數值變數轉為數值變數

:含有人類知識的變數根據先驗知識轉化(比如日期轉化為天數、年、月、日等,地理轉化為經緯度、城市等級等,定序變數保留序數),不含有先驗知識的非數值變數通過one-hot encoding一律轉成0-1啞變數,此時所有變數都是數值型的了。

2.把一系列相似變數可以用統計量概括或補充(比如不同時期第三方資訊、幾個城市等用均值方差之類的資訊)。

3.刪掉那些空值與同一值佔比過多的稀疏變數。

4.刪掉共線變數 。

5.把空值填充好(中位數或平均數等),然後標準化。

資料清洗步驟及常用的方法

確定資料分析目的 獲取資料 清洗資料 探索資料 建模分析 結果交流 探索資料 對整個資料集有全面的認識,一邊後續開展工作 建模分析 常常用到機器學習 深度學習演算法 結果 使用報告 圖表展示資料,將成果與他人分享 髒資料 重複 殘缺 錯誤資料 不符合規則的資料 雜訊資料 分為資料的讀寫 資料的探索與...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

excel資料清洗 資料清洗excel

資料清洗與加工 目的 獲得具備準確性 完整性和一致性符合分析質量的資料。資料處理第一步 資料清洗 1 資料去重 方式1 刪除重複項功能。適用於有重複項出現的列,並且這樣的重複無意義,比如標識列。操作 資料 選項卡下的 刪除重複值 按鈕 方式2 排序刪除重複項。適用於需要人工判斷無用重複項的資料,即將...