關於資料脫敏問題 Hive之UDF

2021-10-05 21:30:36 字數 566 閱讀 8960

資料的重要性是不言而喻的,所以對敏感的資料,進行脫敏也是必不可少的。不過目前我遇到乙個問題,就是資料進行加密之後,怎麼在bi顯示明文呢,因為有些部門需要用到這些相對敏感資料進行營銷,所以這個時候要有乙個解決方案去應對。仔細想想,也就是加密之後,在通過相應的規則,在還原回去,難易程度這個時候就要看加密的演算法是否複雜了。

這裡我簡單說一下我自己的大致思路,以hive為例:

首先要明確使用的加密演算法,用什麼jar包去解密

其次 在專案中構建hive的udf(可以理解為外掛程式),將解密方法寫到類中

最後將專案打成jar包上傳到伺服器,然後到hive中註冊這個udf

即可在sql中使用自定義的函式,完成相應的解密          

除了使用udf,也可以使用ranger 配置,進行行過濾,列脫敏。

具體的實現細節,可以自行搜尋,網上很多,這裡就不再贅述啦。

(注:  當函式加入hive後,記得重新 連線一下 hive,函式才能生效呦~)

資料脫敏問題

上面說到,在 涉及客戶安全資料或者一些商業性敏感資料的情況下 對資料進行改造,說明我們要進行改造的資料是涉及到使用者或者企業資料的安全,進行資料脫敏其實就是對這些資料進行加密,防止洩露。對於脫敏的程度,一般來說只要處理到無法推斷原有的資訊,不會造成資訊洩露即可,如果修改過多,容易導致丟失資料原有特性...

Hive資料傾斜問題

資料傾斜問題一直是大資料計算中普遍存在的現象,針對這種現象一般都是從兩方面解決,從資料本身和應用軟體進行優化。由於hive中計算任務是轉化成mapreduce進行的,當sql執行緩慢或者某幾個reduce任務一直卡在99 時,說明資料有傾斜現象。根本原因就是資料在map或者reduce中分布不均勻,...

hive資料傾斜問題

背景 資料傾斜是大資料領域繞經常遇到的問題,當你所需處理的資料量到達了上億甚至是千億條的時候,資料傾斜將是橫在你面前一道巨大的坎,這也是大資料處理的乙個 的bug。最近在用hadoop跑批的時候經常遇到,一條hivesql要跑好久才能跑完。相信大部分做資料的童鞋們都會遇到資料傾斜,資料傾斜會發生在資...