強大的SQL Server資料清理和處理

2022-06-14 13:09:09 字數 3566 閱讀 3606

問題

我們的組織每天都會接收和傳輸業務關鍵流程的資料,並將其傳輸給眾多合作夥伴,**商,客戶,**商等。

在將資料載入到我們的sql server環境之前,需要對我們的資料進行驗證和清理。

我們已經與sql server dba和開發人員進行了大量投資,以使流程盡可能地自動化。

不幸的是,我們一直在朝著不斷變化的目標進行射擊,即每個系統之間的檔案格式不同,我們經常會得到意想不到的檔案格式(資料被新增,刪除或重新排序),組織之間要求提供新資料,並且情況更加不可**。

最重要的是,我們需要確保對資料有充分了解的資料管理員正確地審核了所有資料。

不斷變化的資料管理目標往往使sql server dba和開發人員不知所措,需要立即響應以更新驗證和匯入**,然後載入資料以滿足組織之間的業務需求。

我們如何才能兩全其美?

讓我們的sql server dba和開發人員構建乙個系統來支援組織,同時為我們的資料管理員提供在生產負載之前靈活地驗證和清除資料的靈活性,而無需我們技術團隊的深入程式設計知識。

解使用sql server資料平台,大多數dba和開發人員都可以使用sql server整合服務(ssis),azure資料工廠(adf),biml,xml,json或t-sql**。

借助標準化的檔案,格式和資料,這些技術能夠使繁瑣的流程自動化。

sql server技術人員能夠在節省整個組織的時間方面發光並顯示其價值。

不幸的是,由於流程之間不斷變化的營銷程式,系統更新,短期程式,產品線的變化,通過眾多**商的履行等原因,許多流程很難實現系統之間的日常更改。

從技術角度來看,這可以看作是

ssis的噩夢,

其中包含數百個笨拙的程式包,版本控制崩潰以及數不盡的時間試圖自動化快速發展的流程。

這些情況很快使sql server技術人員感到沮喪,並且可以從與應用程式所有者,資料管理員和超級使用者的協作中受益,他們可以解密資料並與其他組織進行互動以完成整個過程。

那麼,如何避免

ssis噩夢

?讓技術人員自動化標準化流程,並為資料管理員提供一種無需成為程式設計師即可清理,驗證和匯入資料的解決方案嗎?

我想介紹的

乙個解決方案

是 melissa的unison

,這是為data stewards構建的解決方案,使他們能夠通過直觀的面向專案的框架來驗證,清除,匯入和匯出資料。

unison提供:

讓我們深入了解unison的實際情況。

要開始使用

unison

清理和驗證資料 

,請登入到儀表板以訪問專案,作業和管理介面,例如日誌,使用者管理,元資料更新等。

通過單擊左側導航欄中的「專案」鏈結來啟動乙個新專案,然後選擇「新建」選項。

首先,通過命名專案然後指定專案是公共專案還是私有專案來開始該過程。

命名專案後,將遵循三個核心步驟來完成專案:

將輸入源定義為文字檔案或資料庫連線

配置資料驗證任務

將輸出源指定為文字檔案或資料庫連線

輸入源和輸出源都可以是到sql server,oracle或mysql的平面檔案或資料庫連線。

下面是在專案中建立資料庫連線的介面。

在此專案中,我們將文字檔案從windows資源管理器拖放到unison中,unison將讀取檔案頭並預覽前三個記錄,如下所示。  

配置完成後,專案如下所示:

在資料驗證任務中,unison的真正價值顯而易見。

當前有四個可用任務,包括240個國家/地區的名稱解析,**,電子郵件和位址清除。

免費的melissa解決方案

目前支援matching,data profiler和data cleansing 

。對於unison,只需單擊任何任務即可將其包括在專案中。

讓我們從我們的專案的位址清理開始。

對於「位址清理」,任務會將輸入檔案與

unison中的

公共位址字段匹配 

。該過程首先識別輸入字段,然後識別輸出字段,這些字段最終將在該過程的最後一步中使用。

輸出欄位是經過驗證的melissa結果,以確保最終資料準確。

審查並儲存配置後,我們將返回主專案設計視窗。

我們的下一步是執行unison命名解析,它遵循與address task類似的範例。

這包括帶有驗證的輸入和輸出字段以及每個名稱段的分隔。

當我們返回到專案時,輸入和任務的當前狀態已完成。

我們最後的配置步驟是定義輸出。

就像unison輸入一樣,輸出可以同時輸出到sql server,oracle或mysql中的檔案或表。

使用下面顯示的「寫入檔案」選項,包括名稱,副檔名,附件和分隔符。

此外,該檔案一旦生成,就可以壓縮為zip或gzip檔案。

另乙個獨特功能是能夠根據完整位址匹配,完整**號碼匹配等過濾檔案輸出。

作為輸出資料之前的最後一步,unison提供了檢視輸出字段,使用滑塊開啟/關閉列以及重新排列列順序的功能。

右側的圖例指定與輸出字段關聯的顏色編碼。

現在已經配置了專案,介面右上方的三個選項包括:

現在跑步

預覽輸出

時間表在「預覽輸出」選項中,您可以檢視所有列和第一組行,以確保將以所需的格式傳遞資料。

如果沒有,您可以根據需要更新專案。

這是否意味著將檔案複製到要由sql server professionals構建的自動過程載入的資料的目錄中,對檔案進行加密,然後與團隊成員或合作夥伴共享,等等。

如果單擊「檢視報告」按鈕,則可以圖形或**形式檢視名稱和位址解析的結果,以了解所做的更改型別和記錄的錯誤。

該項目的最終選擇是安排作業每天,每週,每月或自定義時間範圍內執行。

下面是直觀的介面,用於每天安排工作。

unison還提供機會更新和審查作業,以滿足日常管理和監視需求。

mysql清表資料

delete from 表名 truncatetable 表名 不帶where引數的delete語句可以刪除mysql表中所有內容,使用truncate table也可以清空mysql表中所有內容。效率上truncate比delete快,但truncate刪除後不記錄mysql日誌,不可以恢復資料。...

Excel 強大的資料操縱能力

昨天給大一的值班過程中,發現自己對excel基本操作感到很陌生了,有很長時間沒有動作excel了,這一段時間一直都在弄程式設計的東西,似乎忘了excel,而經常用到的是word,對word使用比以前熟悉了很多,所以,通過值班發現了自己的不足,並總結和積澱一下簡單的excel操作。下面先提出幾個問題?...

python強大的資料型別轉換

原始的二維表資料集 jsonobj 新增模擬的資料 for i in range 1001,1004 for j in range 1,34 bureau id i,bureau name 第 str i 中 person id 10000 j 結構化的資料集 persondict for obj ...