大資料安全規範

2022-08-28 22:03:23 字數 3891 閱讀 3484

大資料安全規範

大資料的安全體系分為五個層次:周邊安全、資料安全、訪問安全(認證 - authentication和授權 - authorization

)、訪問行為可見、錯誤處理和異常管理。下面依次說明:

1.周邊安全技術即傳統意義上提到的網路安全技術,如防火牆等;

2.資料安全包括對資料的加解密,又可細分為儲存加密和傳輸加密;還包括對資料的脫敏;

3.訪問安全主要是對使用者的認證和授權兩個方面:

使用者認證(authentication)

即是對使用者身份進行核對, 確認使用者即是其宣告的身份, 這裡包括使用者和服務的認證

使用者授權(authorization)

即是許可權控制,對特定資源, 特定訪問使用者進行授權或拒絕訪問。使用者授權是建立再使用者認證的基礎上,沒有可靠的使用者認證談不上使用者授權。

訪問安全還包括資料驗證(data validation)

1> type.   int string等

2> format. phone email等

3> length.

4> range.

5> precense or absence.

6> match in lookup tables.

7> other bussiness rules 

4.訪問行為可見多指記錄使用者對系統的訪問行為(審計和日誌):如檢視哪個檔案;執行了哪些查詢;訪問行為監控一方面為了進行實時報警,迅速處置危險的訪問行為;另一方面為了事後調查取證,從長期的資料訪問行為中分析定位特定的目的。

5.錯誤處理和異常管理

這個主要是針對錯誤發現,一般做法是建立並逐步完善的監控系統,對可能發生或已發生的情況進行預警或者告警。還包括異常攻擊事件監測,目前發現的針對攻擊的辦法有:

1>

攻擊鏈分析,按照威脅檢測的時間進行分析,描述攻擊鏈條

2>

相同型別的攻擊事件進行合併統計

3>

異常流量學習正常訪問流量,流量異常時進行告警

在這五個層次中,第三層(訪問安全)同業務的關係最為直接:應用程式的多租戶,分許可權訪問控制都直接依賴這一層的技術實現,那麼我們的重點也將放在這一層上。眾所周知的是, hadoop本身提供的認證(主要是kerberos)不易維護,授權(主要是acl)又很粗粒度,為此我們通過對兩個重量級公司(cloudera和hortonworks)開源的關於安全的服務進行對比(參見博文)後決定使用hortonworks開源的ranger。 ranger為企業級hadoop生態服務提供了許多安全套件,通過集中化許可權管理為使用者/組提供檔案、資料夾、資料庫、表及列的認證、授權控制,還可以提供審計(通過solr進行查詢),新推出的rangerkms還支援對hdfs資料加密等

通過ranger提供的使用者/組同步功能實現認證,ranger可以整合unix或者ldap進行使用者認證管理

帳號分為運維帳號和開發使用者帳號。

運維帳號按服務拆為多個賬號,不同的賬號操作不同的服務,具體如下:

服務

使用者

flume

flume

hdfs

hdfs

mapreduce

mapred

hbase

hbase

hive

hive

kafka

kafka

oozie

oozie

ranger

ranger

spark

spark

sqoop

sqoop

storm

storm

yarn

yarn

zookeeper

zookeeper

ambari metrics

ams開發使用者賬號,每個使用者乙個帳號,按團隊分組,不同的賬號或組操作不同的檔案或表,如果需要操作別人的資料,需要運維進行授權

目錄

規則

/source

主要儲存原始採集的日誌,儲存規則如下: /source//,其中:

業務名稱: 比如傳送記錄等

日期:    格式統一為yyyymmdd

/data

儲存的規範和source一樣, 資料倉儲之前的檔案臨時目錄

清理時間待定

/workspace

工作空間,儲存規則如下:/workspace//

對方

/user

使用者空間,儲存使用者私有資料,僅使用者自己可以訪問。按照開發人員

自己的習慣組織儲存檔案,用於儲存使用者的測試資料,

清理時間待定

當員工離職賬戶登出,空間儲存**。

/user/hive/warehouse

儲存hive倉庫,按照團隊建立庫;公共日誌按照業務名進行建立,

每個團隊可以建立乙個屬於團隊的hive庫

/temp

用來儲存一些臨時檔案

每月清理一次

許可權管理有2種方案,acl方案(粗粒度)和 ranger方案(細粒度),基於我們的資料需求,先考慮使用ranger提供的細粒度許可權控制

使用ranger ui介面進行許可權的管理,目前各個服務提供的許可權如下:

服務

服務詳情

許可權

hdfs

hdfs path

read、write、execute

hbase

table、column family、column

read、write、create、admin

hive

database、table|function、column

select、update、create、drop、alter、index、lock、all

yarn

queue

submit-job、admin-queue

kafka

topic

publish、consume、configure、describe、kafka admin

團隊

團隊成員組

服務

許可權

dp(資料平台)

dphdfs

read、write、execute

hbase

read、write

hive

select

yarn

submit-job

kafka

publish、consume、configure、describe

dm(資料探勘)

dmhdfs

read、write、execute

hbase

read、write

hive

select

yarn

submit-job

da(資料應用)

dahdfs

read、write、execute

hbase

read、write

hive

select

yarn

submit-job

op(運維)

hadoop管理員

hdfs、hbase、hive、yarn、kafka

all每個團隊的leader向管理員提出申請,經過評審通過後方可授予相應的許可權

E MapReduce大資料安全實踐

摘要 e mapreduce從emr 2.7.x emr 3.5.x版本開始支援建立安全型別的集群,即集群中的開源元件以kerberos的安全模式啟動,在這種安全環境下只有經過認證的客戶端 client 才能訪問集群的服務 service,如hdfs e mapreduce從emr 2.7.x em...

E MapReduce大資料安全實踐

e mapreduce從emr 2.7.x emr 3.5.x版本開始支援建立安全型別的集群,即集群中的開源元件以kerberos的安全模式啟動,在這種安全環境下只有經過認證的客戶端 client 才能訪問集群的服務 service,如hdfs 乙個大資料集群的企業級安全,從外到內可以分為幾層 如網...

大資料安全怎麼保證?

當前,我國亟須依據 關於促進大資料發展的行動綱要 綜合採取戰略 政策 法律等多種工具,構建起包括法律 行政 技術 行業 社會等在內的大資料安全保護體系,加大大資料的安全保護力度,營造健康環保的大資料生態運營體系。一是加強基礎保護技術的研發和推廣應用。推廣業務系統防攻擊防入侵通用保護技術的普及和應用,...