大資料安全規範
大資料的安全體系分為五個層次:周邊安全、資料安全、訪問安全(認證 - authentication和授權 - authorization
)、訪問行為可見、錯誤處理和異常管理。下面依次說明:
1.周邊安全技術即傳統意義上提到的網路安全技術,如防火牆等;
2.資料安全包括對資料的加解密,又可細分為儲存加密和傳輸加密;還包括對資料的脫敏;
3.訪問安全主要是對使用者的認證和授權兩個方面:
使用者認證(authentication)
即是對使用者身份進行核對, 確認使用者即是其宣告的身份, 這裡包括使用者和服務的認證
使用者授權(authorization)
即是許可權控制,對特定資源, 特定訪問使用者進行授權或拒絕訪問。使用者授權是建立再使用者認證的基礎上,沒有可靠的使用者認證談不上使用者授權。
訪問安全還包括資料驗證(data validation)
1> type. int string等
2> format. phone email等
3> length.
4> range.
5> precense or absence.
6> match in lookup tables.
7> other bussiness rules
4.訪問行為可見多指記錄使用者對系統的訪問行為(審計和日誌):如檢視哪個檔案;執行了哪些查詢;訪問行為監控一方面為了進行實時報警,迅速處置危險的訪問行為;另一方面為了事後調查取證,從長期的資料訪問行為中分析定位特定的目的。
5.錯誤處理和異常管理
這個主要是針對錯誤發現,一般做法是建立並逐步完善的監控系統,對可能發生或已發生的情況進行預警或者告警。還包括異常攻擊事件監測,目前發現的針對攻擊的辦法有:
1>
攻擊鏈分析,按照威脅檢測的時間進行分析,描述攻擊鏈條
2>
相同型別的攻擊事件進行合併統計
3>
異常流量學習正常訪問流量,流量異常時進行告警
在這五個層次中,第三層(訪問安全)同業務的關係最為直接:應用程式的多租戶,分許可權訪問控制都直接依賴這一層的技術實現,那麼我們的重點也將放在這一層上。眾所周知的是, hadoop本身提供的認證(主要是kerberos)不易維護,授權(主要是acl)又很粗粒度,為此我們通過對兩個重量級公司(cloudera和hortonworks)開源的關於安全的服務進行對比(參見博文)後決定使用hortonworks開源的ranger。 ranger為企業級hadoop生態服務提供了許多安全套件,通過集中化許可權管理為使用者/組提供檔案、資料夾、資料庫、表及列的認證、授權控制,還可以提供審計(通過solr進行查詢),新推出的rangerkms還支援對hdfs資料加密等
通過ranger提供的使用者/組同步功能實現認證,ranger可以整合unix或者ldap進行使用者認證管理
帳號分為運維帳號和開發使用者帳號。
運維帳號按服務拆為多個賬號,不同的賬號操作不同的服務,具體如下:
服務
使用者
flume
flume
hdfs
hdfs
mapreduce
mapred
hbase
hbase
hive
hive
kafka
kafka
oozie
oozie
ranger
ranger
spark
spark
sqoop
sqoop
storm
storm
yarn
yarn
zookeeper
zookeeper
ambari metrics
ams開發使用者賬號,每個使用者乙個帳號,按團隊分組,不同的賬號或組操作不同的檔案或表,如果需要操作別人的資料,需要運維進行授權
目錄
規則
/source
主要儲存原始採集的日誌,儲存規則如下: /source//,其中:
業務名稱: 比如傳送記錄等
日期: 格式統一為yyyymmdd
/data
儲存的規範和source一樣, 資料倉儲之前的檔案臨時目錄
清理時間待定
/workspace
工作空間,儲存規則如下:/workspace//
對方
/user
使用者空間,儲存使用者私有資料,僅使用者自己可以訪問。按照開發人員
自己的習慣組織儲存檔案,用於儲存使用者的測試資料,
清理時間待定
當員工離職賬戶登出,空間儲存**。
/user/hive/warehouse
儲存hive倉庫,按照團隊建立庫;公共日誌按照業務名進行建立,
每個團隊可以建立乙個屬於團隊的hive庫
/temp
用來儲存一些臨時檔案
每月清理一次
許可權管理有2種方案,acl方案(粗粒度)和 ranger方案(細粒度),基於我們的資料需求,先考慮使用ranger提供的細粒度許可權控制
使用ranger ui介面進行許可權的管理,目前各個服務提供的許可權如下:
服務
服務詳情
許可權
hdfs
hdfs path
read、write、execute
hbase
table、column family、column
read、write、create、admin
hive
database、table|function、column
select、update、create、drop、alter、index、lock、all
yarn
queue
submit-job、admin-queue
kafka
topic
publish、consume、configure、describe、kafka admin
團隊
團隊成員組
服務
許可權
dp(資料平台)
dphdfs
read、write、execute
hbase
read、write
hive
select
yarn
submit-job
kafka
publish、consume、configure、describe
dm(資料探勘)
dmhdfs
read、write、execute
hbase
read、write
hive
select
yarn
submit-job
da(資料應用)
dahdfs
read、write、execute
hbase
read、write
hive
select
yarn
submit-job
op(運維)
hadoop管理員
hdfs、hbase、hive、yarn、kafka
all每個團隊的leader向管理員提出申請,經過評審通過後方可授予相應的許可權
E MapReduce大資料安全實踐
摘要 e mapreduce從emr 2.7.x emr 3.5.x版本開始支援建立安全型別的集群,即集群中的開源元件以kerberos的安全模式啟動,在這種安全環境下只有經過認證的客戶端 client 才能訪問集群的服務 service,如hdfs e mapreduce從emr 2.7.x em...
E MapReduce大資料安全實踐
e mapreduce從emr 2.7.x emr 3.5.x版本開始支援建立安全型別的集群,即集群中的開源元件以kerberos的安全模式啟動,在這種安全環境下只有經過認證的客戶端 client 才能訪問集群的服務 service,如hdfs 乙個大資料集群的企業級安全,從外到內可以分為幾層 如網...
大資料安全怎麼保證?
當前,我國亟須依據 關於促進大資料發展的行動綱要 綜合採取戰略 政策 法律等多種工具,構建起包括法律 行政 技術 行業 社會等在內的大資料安全保護體系,加大大資料的安全保護力度,營造健康環保的大資料生態運營體系。一是加強基礎保護技術的研發和推廣應用。推廣業務系統防攻擊防入侵通用保護技術的普及和應用,...