關於Hadoop相關的各種概念及優缺點

2021-10-01 07:24:40 字數 1719 閱讀 4788

hive:由facebook開源用於解決海量結構化日誌的資料統計。

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並提供類sql查詢功能。

本質是:將hql轉化成mapreduce程式

1)hive處理的資料儲存在hdfs

2)hive分析資料底層的實現是mapreduce

3)執行程式執行在yarn上

優點1)操作介面採用類sql語法,提供快速開發的能力(簡單、容易上手)。

2)避免了去寫mapreduce,減少開發人員的學習成本。

3)hive的執行延遲比較高,因此hive常用於資料分析,對實時性要求不高的場合。

4)hive優勢在於處理大資料,對於處理小資料沒有優勢,因為hive的執行延遲比較高。

5)hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式。

缺點1.hive的hql表達能力有限

(1)迭代式演算法無法表達

(2)資料探勘方面不擅長,由於mapreduce資料處理流程的限制,效率更高的演算法卻無法實現。

2.hive的效率比較低

(1)hive自動生成的mapreduce作業,通常情況下不夠智慧型化

(2)hive調優比較困難,粒度較粗

flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統。flume基於流式架構,靈活簡單。

1.2 flume的優點

1.可以和任意儲存程序整合。

2.輸入的的資料速率大於寫入目的儲存的速率,flume會進行緩衝,減小hdfs的壓力。

3.flume中的事務基於channel,使用了兩個事務模型(sender + receiver),確保訊息被可靠傳送。

zookeeper是乙個分布式協調服務的開源概架,主要用來解決分布式集群中應用系統的一致性問題,例如怎樣避免網時操作同一資料造成髒讀的間題,zookee區本質上是乙個分布式的小檔案儲存系統,提供基於類似於檔案系統的目錄樹方式的資料儲存,並且可以對樹中的節點進行有效管理,從而用來維護和監控你儲存的資料的狀態變化,通過監控這些資料狀態的變化,從而可以達到基於資料的集群管理,諸如:統一命名服務、分布式配置管理、分布式訊息佇列、分布式鎖、分布式協調等功能。

vga的各種概念

vga的概念包括行同步,場同步,行消隱和場消隱。其中同步頭是負的,乙個時序圖,有行同步訊號,顯示後沿,顯示訊號,顯示前沿,同步訊號。其中同步訊號和顯示後沿加起來,顯示前沿和同步訊號加起來是行消隱訊號。顯示寬頻包括重新整理頻率乘以解析度 vga的時鐘驅動,由解析度對應的重新整理頻率算出一幅影象對應的重...

《深度學習的數學》筆記 各種概念

第二章 神經網路的數學基礎 第三章 神經網路的最優化 第四章 神經網路和誤差反向傳播法 第五章 深度學習和卷積神經網路 附錄神經元的 點火 神經元固有邊界值 閾值 神經元訊號傳遞 點火 權重 神經單元 unit 啟用函式 activation function sigmoid函式 單位階躍函式 線性...

高等數學 各種概念和意義

函式是有連續性的,所以從幾何意義來說必須可以形成線條 如果用圖形表達的話就是線,這就是函式的含義。從這點來說,函式其實就是曲線。有規則的線,有週期的線,有極限 x軸或y軸 的線。比如直線,三角函式的線,各種線。導數是曲線切線的斜率 比如其中 切線 直線a與曲線b只有乙個接觸點,直線a是曲線b的切線。...