關於資料脫敏問題 Hive之UDF

資料的重要性是不言而喻的，所以對敏感的資料，進行脫敏也是必不可少的。不過目前我遇到乙個問題，就是資料進行加密之後，怎麼在bi顯示明文呢，因為有些部門需要用到這些相對敏感資料進行營銷，所以這個時候要有乙個解決方案去應對。仔細想想，也就是加密之後，在通過相應的規則，在還原回去，難易程度這個時候就要看加密的演算法是否複雜了。

這裡我簡單說一下我自己的大致思路，以hive為例：

首先要明確使用的加密演算法，用什麼jar包去解密

其次在專案中構建hive的udf(可以理解為外掛程式)，將解密方法寫到類中

最後將專案打成jar包上傳到伺服器，然後到hive中註冊這個udf

即可在sql中使用自定義的函式，完成相應的解密

除了使用udf，也可以使用ranger 配置，進行行過濾，列脫敏。

具體的實現細節，可以自行搜尋，網上很多，這裡就不再贅述啦。

（注: 當函式加入hive後，記得重新連線一下 hive，函式才能生效呦～）

資料脫敏問題

上面說到，在涉及客戶安全資料或者一些商業性敏感資料的情況下對資料進行改造，說明我們要進行改造的資料是涉及到使用者或者企業資料的安全，進行資料脫敏其實就是對這些資料進行加密，防止洩露。對於脫敏的程度，一般來說只要處理到無法推斷原有的資訊，不會造成資訊洩露即可，如果修改過多，容易導致丟失資料原有特性...

Hive資料傾斜問題

資料傾斜問題一直是大資料計算中普遍存在的現象，針對這種現象一般都是從兩方面解決，從資料本身和應用軟體進行優化。由於hive中計算任務是轉化成mapreduce進行的，當sql執行緩慢或者某幾個reduce任務一直卡在99 時，說明資料有傾斜現象。根本原因就是資料在map或者reduce中分布不均勻，...

hive資料傾斜問題

背景資料傾斜是大資料領域繞經常遇到的問題，當你所需處理的資料量到達了上億甚至是千億條的時候，資料傾斜將是橫在你面前一道巨大的坎，這也是大資料處理的乙個的bug。最近在用hadoop跑批的時候經常遇到，一條hivesql要跑好久才能跑完。相信大部分做資料的童鞋們都會遇到資料傾斜，資料傾斜會發生在資...

關於資料脫敏問題 Hive之UDF

資料脫敏問題

Hive資料傾斜問題

hive資料傾斜問題

相關推薦