hdfs是hadoop體系中資料儲存管理的基礎。它是 hadoop 技術體系中的核心基石,負責分布式儲存資料,你可以把它理解為乙個分布式的檔案系統。此檔案系統的主要特徵是資料分散儲存,乙個檔案儲存在 hdfs 上時會被分成若干個資料塊,每個資料塊分別儲存在不同的伺服器上。
mapreduce是一種計算模型,用於處理大資料量的計算。其中map對應資料集上的獨立元素進行指定的操作,生成鍵-值對形式中間,reduce則對中間結果中相同的鍵的所有值進行規約,以得到最終結果。
mapreduce的強大在於分布式計算,也就是將計算任務分布在多個伺服器上,因此伺服器數量越多,計算速度就越快。
hbase是乙個針對結構化資料的可伸縮,高可靠,高效能,分布式和面向列的動態模式資料庫 。
hbase繼承了列儲存的特性,它非常適合需對資料進行隨機讀、寫操作、比如每秒對pb級資料進行幾千次讀、寫訪問是非常簡單的操作。
其次,hbase構建在hdfs之上,其內部管理的檔案全部儲存在hdfs中。這使它具有高度容錯性和可擴充套件性,並支援hadoop mapreduce程式設計模型。 如果你的應用是交易歷史查詢系統、查詢場景簡單,檢索條件較少、每天有千萬行資料更新、那麼hbase將是乙個很好的選擇。其實,行儲存和列儲存只是不同的維度而已,沒有天生的優劣,而大資料時代大部分的查詢模式決定了列式儲存優於行式儲存。
hive 定義了一種類似 sql 的查詢語言(hql),它可以將 sql 轉化為 mapreduce 任務在 hadoop 上執行。
而nodemanager則負責資源的供給和隔離。當使用者提交乙個應用程式時,會建立乙個用以跟蹤和管理這個程式的am,它負責向rm申請資源,並要求nm啟動指定資源的任務。這就是yarn的基本執行機制。
spark是一種基於記憶體的分布式平行計算框架。spark 提供了記憶體中的分布式計算能力,相比傳統的 mapreduce 大資料分析效率更高、執行速度更快。總結一句話:以記憶體換效率。
sqoop是sql-to-hadoop的縮寫。它主要用於傳統資料庫和hadoop之間傳輸資料。資料的匯入和匯出本質上是 mapreduce 程式,充分利用了 mr 的並行化和容錯性。
解決分布式環境下的資料管理問題:統一命名,狀態同步,集群管理,配置同步等。
hadoop的很多元件依賴於zooleeper,它執行在計算機集群上。
flume 是將資料從產生、傳輸、處理並最終寫入目標路徑的過程抽象為資料流,在具體的資料流中,資料來源支援在 flume 中定製資料傳送方,從而支援收集各種不同協議資料。同時,flume 資料流提供對日誌資料進行簡單處理的能力,如過濾、格式轉換等。此外,flume 還具有能夠將日誌寫往各種資料目標(檔案、hdfs、網路)的能力。在 hadoop 平台,我們主要使用的是通過 flume 將資料從源伺服器寫入 hadoop 的 hdfs 上。
mahout的主要目標是建立一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧型應用程式。mahout現在已經包含了聚類,分類,推薦引擎(協同過濾)和頻繁集挖掘等廣泛使用的資料探勘方法
pig是一種資料流語言和執行環境,常用於檢索和分析資料量較大的資料集。
ambari 是乙個大資料基礎運維平台,它實現了 hadoop 生態圈各種元件的自動化部署、服務管理和監控告警,ambari 通過 puppet 實現自動化安裝和配置,通過 ganglia 收集監控度量指標,用 nagios 實現故障報警。
a.hadoop具有安位儲存和處理資料能力的高可靠性。
b.hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配,具有高容錯性。
c.hadoop能夠在節點之間進行動態地移動資料,並保證各個節點的動態平衡,處理速度非常快,具有高效性。
a.hadoop不適用於低延遲資料訪問。
b.hadoop不能高效儲存大量小檔案。
c.hadoop不支援多使用者寫入並任意修改檔案。
a.與hadoop的mapreduce相比,spark基於記憶體的運算要快100倍以上,而基於磁碟的運算也要快10倍以上。spark實現了高效的dag執行引擎,可以通過基於記憶體來高效地處理資料流。
b.spark支援j**a,python和scala的api,還支援超過80鐘高階演算法,使使用者可以快速構建不同應用。
c.spark提供了統一的解決方案。spark可以用於批處理,互動式查詢,實時流處理,機器學習和圖計算。
a.spark在穩定性方面不如hadoop,由於**質量問題,spark長時間執行會經常出錯。
b.不能處理大資料,單獨機器處理資料過大,或由於資料出現問題導致中間結構超過ram的大小時,常常出現ram空間不足或無法得知結果。
c.不能支援複雜的sql統計,目前spark支援的sql語法完整過程還不能應用在複雜資料分析中。在可管理性方面,sparkyarn的結合不完善,這就為使用過程中容易出現各種難題。
hadoop生態系統中一些元件實現的功能,是目前無法由spark取代的。由於hadoop mapreduce、hbase、storm和spark等,都可以執行在資源管理框架yarn之上,因此,可以在yarn之上進行統一部署
大資料概述
1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...
大資料概述
大資料 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。所謂 面向集合 collection oriented 意思是資料被分組儲存在資料集...
大資料概述
1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...