確定資料分析目的-獲取資料-清洗資料-探索資料-建模分析-結果交流
探索資料:對整個資料集有全面的認識,一邊後續開展工作
建模分析:常常用到機器學習、深度學習演算法
結果:使用報告、圖表展示資料,將成果與他人分享
髒資料:重複、殘缺、錯誤資料、不符合規則的資料(雜訊資料)
分為資料的讀寫、資料的探索與描述、資料簡單處理、重複值處理、缺失值處理、異常值處理、文字字串的處理、時間格式序列的處理。除了前三個以外順序可以調整。
pd.read_csv()
pd.read_excel()
df.info()
df.head()
df.shape
df.describe() #只顯示數值型資料的描述統計
英文本母大小寫轉換
duplicated() #分為兩種,一種是前面的是true,一種是後為true
drop_duplicates() #不在原資料集上改變,需要加inplace引數
去除掉重複行後,要進行索引重置
df.isnall() 檢視缺失值
df.notnull()
df.dropna() #刪除缺失值
df.fillna() #填補缺失值
均值填充法
向前/後填充法
模型填充,如隨機森林,knn
可以根據每一列,一次一次找缺失值
刪除異常值記錄行或列
作為缺失值處理
平均值修正、蓋帽法修正
不處理:業務分析挖掘價值
根據統計學知識找3個標準差外的為異常值:
sta = (x-x.mean())/x.std()
sta.abs()>3 #即為異常值
對於建模來說,通常會刪掉異常值
對於業務來說,異常值可能包含隱含資訊,意味著更多的價值
去除前後空格處理
處理中間有, ()之類的資料
正規表示式提取有用資訊
df[『酒店評分』] = df.酒店.str.extract(pattern, expand=false)
expand=true 返回index/series
expand=false 返回dataframe
將系統時間格式化
系統時間與時間戳轉換
年月日的提取
關於資料清洗的步驟及方法的理解
資料清洗,是整個資料分析過程中不可缺少的乙個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。照例,先上圖 預處理階段主要做兩件事情 一是將資料匯入處理工具。通常來說,建議使用資料庫...
資料清洗步驟
資料清洗可以通過5步做好 1.把所有非數值變數轉為數值變數 含有人類知識的變數根據先驗知識轉化 比如日期轉化為天數 年 月 日等,地理轉化為經緯度 城市等級等,定序變數保留序數 不含有先驗知識的非數值變數通過one hot encoding一律轉成0 1啞變數,此時所有變數都是數值型的了。2.把一系...
乾貨來了!快速教你資料清洗的步驟及方法
說起資料清洗,可能會有些小夥伴會覺得這一步可以忽略掉,但是!作為混跡在資料分析這一塊多年的老油條,小編在此嚴肅地宣告!資料清理是資料處理中最不能被忽略的部分,它是資料分析過程中不可缺少的一環,其結果的好壞直接關係到模型的效果。實際上,資料清洗通常要占用50 80 的分析過程。國外有些學術機構還會專門...