資料同步工具:離線同步 sqoop /datax 實時同步 cannal/flink cdc
許可權管理(kerberos,cdh cloudmanager=> sentry ,hdp ambari=>ranger;其中後兩者可以做到目錄級別使用者級別許可權管理)
資料質量監控工具-apache griffin
元資料管理apache atlas(血緣系統)
資料排程工具apache dolphinscheduler 、apache airflow
報表視覺化工具finereport 、tableau、powerbi
visio流程圖工具
數倉相關思考3
表的輸入格式和表中儲存資料的格式相關,輸入格式的作用是為select語言提供乙個輸入格式,以便於讀取表中的資料!ods層表中儲存的資料格式為 textfile 但是使用了lzo壓縮,為了可以正常讀取和切片資料檔案,必須設定為 deprecatedlzotextinputformat!能否切片,主要取...
數倉相關知識集合
數倉建模 說到數倉建模,就得提下經典的2套理論 數倉的建模或者分層,其實都是為了更好的去組織 管理 維護資料,實際開發時會整合2種方式去使用,當然,還有些其他的,像data vault模型 anchor模型,暫時還沒有應用過,就不說了。維度建模,一般都會提到星型模型 雪花模型,星型模型做olap分析...
數倉工具 Hive初識 1
那麼,到底什麼是hive,我們先看看hive官網wiki是如何介紹hive的 apache hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並且提供了通過sql 對儲存在分布式中的大型資料集的查詢和管理,主要提供以下功能 它提供了一系列的通過sql 訪問資料的工具,...