提起大資料,不得不提由ibm提出的關於大資料的5v特性:volume(大量)、velocity(高速)、variety(多樣)、value(低價值密度)、veracity(真實性),而對於大資料領域的從業人員的日常工作也與這5v密切相關。大資料技術在過去的幾十年中取得非常迅速的發展,尤以hadoop和spark最為突出,已構建起龐大的技術生態體系圈。
首先通過一張圖來了解一下目前大資料領域常用的一些技術,當然大資料發展至今所涉及技術遠不止這些。
下面分不同層介紹各個技術,當然各個層並不是字面意義上的嚴格劃分,如hive既提供資料處理功能也提供資料儲存功能,但此處將其劃為資料分析層中。
大資料技術棧 ETL(資料倉儲技術)
etl特點 etl是英文extract transform load的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。目的就是將企業中的分散 零亂 標準不統一的資料整合到一起,為企業的決策提供分析依據。etl是bi business in...
常用大資料技術名詞通俗解釋
常用大資料技術名詞通俗解釋 hadoop 最早出現的大資料的概念就是體現在hadoop上面,簡單理解就是虛擬了乙個儲存系統,乙個檔案在多台機器上儲存多份,丟失機率很小。由於機器集群可以橫向擴充,因此能儲存理論上無窮多的檔案,因此稱為大資料平台。mapreduce 在hadoop存檔案的基礎上,map...
常用的大資料技術有哪些?
大資料技術,簡而言之,就是提取大資料價值的技術,是根據特定目標,經過資料收集與儲存 資料篩選 演算法分析與 資料分析結果展示等,為做出正確決策提供依據,其資料級別通常在pb以上,以下是常用的大資料技術 一 大資料基礎階段 大資料基礎階段需掌握的技術有 linux docker kvm mysql基礎...