首先要明確使用的加密演算法,用什麼jar包去解密
其次 在專案中構建hive的udf(可以理解為外掛程式),將解密方法寫到類中
最後將專案打成jar包上傳到伺服器,然後到hive中註冊這個udf
即可在sql中使用自定義的函式,完成相應的解密
除了使用udf,也可以使用ranger 配置,進行行過濾,列脫敏。
具體的實現細節,可以自行搜尋,網上很多,這裡就不再贅述啦。
(注: 當函式加入hive後,記得重新 連線一下 hive,函式才能生效呦~)
資料脫敏問題
上面說到,在 涉及客戶安全資料或者一些商業性敏感資料的情況下 對資料進行改造,說明我們要進行改造的資料是涉及到使用者或者企業資料的安全,進行資料脫敏其實就是對這些資料進行加密,防止洩露。對於脫敏的程度,一般來說只要處理到無法推斷原有的資訊,不會造成資訊洩露即可,如果修改過多,容易導致丟失資料原有特性...
Hive資料傾斜問題
資料傾斜問題一直是大資料計算中普遍存在的現象,針對這種現象一般都是從兩方面解決,從資料本身和應用軟體進行優化。由於hive中計算任務是轉化成mapreduce進行的,當sql執行緩慢或者某幾個reduce任務一直卡在99 時,說明資料有傾斜現象。根本原因就是資料在map或者reduce中分布不均勻,...
hive資料傾斜問題
背景 資料傾斜是大資料領域繞經常遇到的問題,當你所需處理的資料量到達了上億甚至是千億條的時候,資料傾斜將是橫在你面前一道巨大的坎,這也是大資料處理的乙個 的bug。最近在用hadoop跑批的時候經常遇到,一條hivesql要跑好久才能跑完。相信大部分做資料的童鞋們都會遇到資料傾斜,資料傾斜會發生在資...