打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰，從事資料分析的從業者希望在資料分析之前，來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成：1、獲取資料 2、清洗資料 3、轉換資料、4、模式整合 5、重複資料刪除、6、分類 7、匯出。

一般而言，企業實現數統一有兩種方法，提取轉換載入(etl)和主資料管理(mdm)。

提取轉換載入(etl)具有靈活性的優勢，適合不同的資料**，使程式設計師可以手工編寫轉換程式，能夠確保源資料模式與集中式資料倉儲專案採用的全域性模式匹配。但由於自動化程度低，提取轉換載入頻寬能超過20個資料來源沒有多少家公司。

主資料管理(mdm)，它與etl類似的地方在於，預設乙個「主記錄」，每乙個有專門的類別選項。如客戶、部件和**商等的所有檔案符合主記錄格式。但和etl有所區別的是，mom不是使用手動的定製指令碼，而是依靠一套「模糊合併」規則，把所有不同的檔案轉換成主格式。

可難解的是，在資料量過大的情況下，不管是etl還是mdm，都無法解決資料統一難題。加上大資料集的龐大規模以及對程式設計師的苛刻要求任何的可規模化資料統一專案都必須在很大程度上實現自動化，不能依靠手動編寫的程式。

著名計算機科學家、tamr聯合創始人兼首席技術官麥可·斯通布雷克(michael stonebraker)針對資料統一存在的限制難題，提出資料統一的七條原則。

一、所有的可規模化系統，都必須自動進行絕大多數的操作。

二、模式為先(schema-first)的產品永遠無法規模化。唯一的選擇是採用『模式為後』(schema-last)的產品。

三、需要進行具體的域操作時，只有協作性的系統才可實現規模化。

四、為了實現可規模化，任何的統一計算必須在多個核心和多個處理器上執行。

五、儘管存在第四條原則，但真正的可擴充套件應用需要複雜性低於n ** 2的並行演算法。

六、規則系統實現是無法規模化的。只有機器學習系統才能將規模擴充套件到大公司所需要的程度。

七、必須支援實時增量統一。黎婷