大資料技術生態體系如圖2-26所示。
圖中涉及的技術名詞解釋如下:
1)sqoop:sqoop是一款開源的工具,主要用於在hadoop、hive與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。
2)flume:flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。
3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統,有如下特性:
(1)通過o(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以tb的訊息儲存也能夠保持長時間的穩定性能。
(2)高吞吐量:即使是非常普通的硬體kafka也可以支援每秒數百萬的訊息。
(3)支援通過kafka伺服器和消費機集群來分割槽訊息。
(4)支援hadoop並行資料載入。
4)storm:storm用於「連續計算」,對資料流做連續查詢,在計算時就將結果以流的形式輸出給使用者。
5)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。
6)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。
7)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。
8)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。
10)r語言:r是用於統計分析、繪圖的語言和操作環境。r是屬於gnu系統的乙個自由、免費、源**開放的軟體,它是乙個用於統計計算和統計製圖的優秀工具。
11)mahout:apache mahout是個可擴充套件的機器學習和資料探勘庫。
12)zookeeper:zookeeper是google的chubby乙個開源的實現。它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。zookeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。
大資料技術生態體系
1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...
大資料技術生態體系
大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...
大資料技術生態體系
圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 f...