資料分析 如何處理髒資料

2021-10-22 16:26:47 字數 317 閱讀 1566

種類:

1.通過對資料區間進行限定,排除明顯異常的資料

2.通過系統的內部邏輯結構查詢不符合格式的資料

3.通過建立匹配規則,匹配不統一的資料

通過將資料規範化,將髒資料中合格的部分篩選出來,如:將日期資料2020-01-01規範化,可以篩選出年份、月份、日期

資料之間應該有關聯性,通過相互關聯的資料可以將髒資料定位

如:銷售資料**現了一筆非常大的交易額,若想檢視它是否正常,

應當把交易額與客戶姓名、購買日期、訂單號、單價等相關聯,

當查詢這個異常的髒資料時就可以十分清楚的定位到相關資訊,看是否正常。

資料分析處理(五)

id點菜次數最多 import numpy as np import pandas as pd 匯入pandas用於 操作 import xlrd 匯入xlrd用於獲取乙個 裡多個sheet from matplotlib import pyplot as plt 匯入pyplot用於繪圖 from...

資料分析處理(八)

import numpy as np import pandas as pd 匯入pandas用於 操作 import xlrd 匯入xlrd用於獲取乙個 裡多個sheet from matplotlib import pyplot as plt 匯入pyplot用於繪圖 from datetime...

資料分析入門 如何訓練資料分析思維?

發布。我們在生活中,會經常聽說兩種推理模式,一種是歸納 一種是演繹,這兩種思維模式能夠幫助資料分析師完成原始的業務邏輯積累,在此基礎上快速定位業務問題,提公升分析效率,但是對於剛入門的資料分析師,在專案經驗不足的前提下,如何快速完成專案的分析報告?這裡引進一種外展推理的思維模式,方便入門分析師的完成...