髒資料處理調研

2021-10-05 00:23:20 字數 1260 閱讀 6407

5. 總結

髒資料(dirty read)是指源系統中的資料不在給定的範圍內或對於實際業務毫無意義,或是資料格式非法,以及在源系統中存在不規範的編碼和含糊的業務邏輯。

問題元資料

方案非法值

基數最大最小值

變換率,方差

簡單統計分析、過濾

缺值空值

屬性值+預設值

刪除變數(缺失值較高)

空值填充,空值數目/百分比(缺失值低),出現預設值提示從實際值缺少

重複值基數+唯一值

屬性值保持屬性基數=行數

將屬性值出現次數排序,大於1的標識重複

選項描述

忽略錯誤

如果在解析的時候忽略錯誤,就指定這個選項。

跳過錯誤行

使用這個選項來跳過那些出現錯誤的行。

你可以生成另外的檔案來包含錯誤的行號。

如果不跳過錯誤行,解析錯誤欄位將是空的。

錯誤計數字段

在輸出流中增加乙個字段,這個欄位將包含錯誤發生的行數。

錯誤文字欄位名

再輸出流中增加乙個字段,這個欄位將包含錯誤發生的欄位名稱。

警告檔案目錄

當警告發生的時候,它們將被放進這個目錄。檔名將是

《警告目錄》/檔名.《日期時間》.《警告檔案擴充套件》

錯誤檔案目錄

當錯誤發生的時候,它們將被放進這個目錄。檔名將是

《錯誤檔案目錄》/檔名.《日期時間》.《錯誤檔案擴充套件》

失敗行數檔案目錄

當解析行的時候發生錯誤,行號被放進這個目錄。檔名將是

《錯誤行目錄》/檔名.《日期時間》.《錯誤行擴充套件》

選項描述

監測髒資料

使用者自定義規則(配置傳入)

統計髒資料

如果多個transform,某乙個發生髒資料,將不會再進行後面的transform,

直接統計為臟資料。

展示髒資料

判斷為臟資料後,日誌展示,並輸出該條記錄。

涉及到執行過程的計量資料展現定義如下:

total 1000000 records, 22000000 bytes | transform 100000 records(in), 10000 records(out) | speed 2.10mb/s, 100000 records/s | error 0 records, 0 bytes | percentage 100.00%
​ 結合異常資料的多樣性和以為使用者提供多解決方案的目標,總結出以下常用髒資料處理所需功能:

php 髒資料,PHP單元測試髒資料處理方式

單元測試的時候,難免產生髒資料,對髒資料該如何處理呢?我們最先想到的方法是 在測試方法中,被刪 改,操作之前記錄資料,操作完成後還原資料。新增 記錄新增的主鍵,測試結束後在測試指令碼中執行刪除。我之前想了很多種想取巧的方法,想讓操作更 單元測試的時候,難免產生髒資料,對髒資料該如何處理呢?我們最先想...

資料處理 流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...

爬蟲 資料處理 pandas資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...