如何做效能量化?
根據使用者自己劃分效能量化。
hive查詢效能量化:例如使用tpc-ds來測試集群某些元件的查詢能行hive-on-spark、presto、tez、impala等;
spark任務提交量化:基於現有的集群可以並行跑多少個任務(以及對應的是使用多少資源?還是80%,剩餘20%不可使用),每s、m、h能處理多少資料,處理速度的標準是多少?;
presto查詢效能量化:***x;
hue提交任務提交量化:***x;
sqoop提交任務效能量化:***x;
zookeeper使用效能量化:現有環境多少個節點可以穩定的支援;
***x: ***x;
可以使用使用者管理元件例如:sentry、ranger、kerberos。
其中kerberos(業界比較常用的方案)
apache sentry(cloudera選用的方案,cdh版本中整合)。
apache ranger(hortonworks選用的方案,hdp發行版中整合、資料倉儲在使用)。
使用這三個的好處就是可以自己的幫你分別統計每個使用者元件的使用頻次、
以及許可權管理。
我們根據生成的使用資料即可分析出來現在的集群瓶頸等。
— kerberos相當於對訪問請求做了一層攔截;
— sentry (cdh)
例如針對hdfs的
資料質量管理
常見的資料質量問題包括 通過資料分析 資料評估 資料清洗 資料監控 錯誤預警等內容,解決資料質量問題,使資料的質量得以改善,使其滿足資料需求方對資料質量的規則要求。包括但不止以下6個方面 要素分別為 基礎模型 資料質量定義模型 資料質量控制模型 資料質量評價模型 資料質量輔助模型。1.基礎模型。其他...
資料質量管理
資料質量管理 下列要素是進行資料質量管理的基礎 1.資料質量的好壞是由使用者以及資料使用價值所決定的。2.資料質量的好壞代表著資料在資料知識應用中 資料所存在的系統中以及資料使用過程中被應用或者有價值的程度。3.只有當資料被下游過程 系統或使用者 所接收並使用時,資料質量問題的研討才有意義。4.資料...
資料質量管理(二)
談資料質量管理,我們首先要繞開類似bi或mdm系統,首先看下對標準的資料質量管理的一下闡述。資料質量管理 data quality management 是指對資料從計畫 獲取 儲存 共享 維護 應用 消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別 度量 監控 預警等一系列管理活動,並...