5. 總結
髒資料(dirty read)是指源系統中的資料不在給定的範圍內或對於實際業務毫無意義,或是資料格式非法,以及在源系統中存在不規範的編碼和含糊的業務邏輯。
問題元資料
方案非法值
基數最大最小值
變換率,方差
簡單統計分析、過濾
缺值空值
屬性值+預設值
刪除變數(缺失值較高)
空值填充,空值數目/百分比(缺失值低),出現預設值提示從實際值缺少
重複值基數+唯一值
屬性值保持屬性基數=行數
將屬性值出現次數排序,大於1的標識重複
選項描述
忽略錯誤
如果在解析的時候忽略錯誤,就指定這個選項。
跳過錯誤行
使用這個選項來跳過那些出現錯誤的行。
你可以生成另外的檔案來包含錯誤的行號。
如果不跳過錯誤行,解析錯誤欄位將是空的。
錯誤計數字段
在輸出流中增加乙個字段,這個欄位將包含錯誤發生的行數。
錯誤文字欄位名
再輸出流中增加乙個字段,這個欄位將包含錯誤發生的欄位名稱。
警告檔案目錄
當警告發生的時候,它們將被放進這個目錄。檔名將是
《警告目錄》/檔名.《日期時間》.《警告檔案擴充套件》
錯誤檔案目錄
當錯誤發生的時候,它們將被放進這個目錄。檔名將是
《錯誤檔案目錄》/檔名.《日期時間》.《錯誤檔案擴充套件》
失敗行數檔案目錄
當解析行的時候發生錯誤,行號被放進這個目錄。檔名將是
《錯誤行目錄》/檔名.《日期時間》.《錯誤行擴充套件》
選項描述
監測髒資料
使用者自定義規則(配置傳入)
統計髒資料
如果多個transform,某乙個發生髒資料,將不會再進行後面的transform,
直接統計為臟資料。
展示髒資料
判斷為臟資料後,日誌展示,並輸出該條記錄。
涉及到執行過程的計量資料展現定義如下:
total 1000000 records, 22000000 bytes | transform 100000 records(in), 10000 records(out) | speed 2.10mb/s, 100000 records/s | error 0 records, 0 bytes | percentage 100.00%
結合異常資料的多樣性和以為使用者提供多解決方案的目標,總結出以下常用髒資料處理所需功能: php 髒資料,PHP單元測試髒資料處理方式
單元測試的時候,難免產生髒資料,對髒資料該如何處理呢?我們最先想到的方法是 在測試方法中,被刪 改,操作之前記錄資料,操作完成後還原資料。新增 記錄新增的主鍵,測試結束後在測試指令碼中執行刪除。我之前想了很多種想取巧的方法,想讓操作更 單元測試的時候,難免產生髒資料,對髒資料該如何處理呢?我們最先想...
資料處理 流資料處理利器
流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...
爬蟲 資料處理 pandas資料處理
使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...