一般處理t+1資料,這裡的t可以代表一天,一周、乙個月以及一年等。這裡我用的hadoop的版本是hadoop 2.x,它有四個模組(common、hdfs、mapreduce、yarn)。
下面是hadoop的四個模組的詳細介紹
模組介紹
hadoop common
支援其他模組的工具模組
hadoop distributed file system (hdfs)
分布式檔案系統,提供了對應用程式資料的高吞吐量訪問。
程序: namenode 名稱節點 nn
datanode
資料節點 dn
secondarynamenode
輔助名稱節點 2ndnn
hadoop yarn
作業排程與集群資源管理的框架。
程序 resourcemanager 資源管理—rm
nodemanager
節點管理器—nm
hadoop mapreduce
基於yarn系統的對大資料集進行並行處理技術
hive:大資料資料倉儲,通過寫sql對資料進行操作,類似於mysql資料庫中的sql。
hbase:基於hdfs的nosql(not only sql)資料庫,面向列的儲存
下面是hive與hbase的比較
hive
hbase
1、可以理解為一種sql執行引擎,對sql的支援最終轉換為map/reduce任務
2、不支援更新、刪除操作,但可以插入
3、任務不是實時執行,用時一般為數分鐘到數小時
4、本身可以不儲存資料,只儲存關於資料的元資料,偏重於邏輯結構,是一種資料倉儲
5、適合於靜態大資料量的查詢、分析、彙總,不適合聯機實時資料處理
6、操作一般以全表資料為基礎,但也有分割槽等概念
1、不支援sql
2、支援增刪改查操作
3、任務實時執行
4、本身儲存資料,有複雜的物理儲存結構,是一種真正的資料庫
5、適合聯機實時資料處理
6、操作以列為基礎
總結:
hive
和hbase
都是以hadoop
為基礎構建;
hive
是建立在
hadoop
之上為了減少
mapreduce jobs
編寫工作的批處理系統,是用
sql替**
mr的程式設計框架,而
hbase
是為了支援彌補
hadoop
對實時操作的缺陷的專案。
hive
是一種能執行
mapreduce
作業的類
sql程式設計介面,而
hbase
是一種非關係型的資料庫結構。
協作框架:
sqoop(橋梁:hdfs 《==》rdbms)實現資料庫的互導,也就是分布式檔案系統與關聯式資料庫之間的互導。
flume:收集日誌檔案中資訊,一般是收集tomcat的日誌資訊。(現在大多數企業都在使用tomcat)。
下面介紹的是一些大資料中常用的一些框架:
排程框架anzkaban,了解:crontab(linux自帶)、zeus(alibaba)、oozie(cloudera)。
擴充套件前沿框架:kylin、impala(偏向於實時)、elasticsearch(es)。
框架名稱
模擬解釋
以spark框架為主
scala
scala:oop + fp
oop(object oriented programming)
sparkcore
模擬mapreduce
sparksql
模擬hive
sparkstreaming
實時資料處理
kafka
訊息佇列
前沿框架擴充套件:flink
阿里巴巴 blink
spark mllib:機器學習庫
python資料分析
python機器學習
學大資料需要學哪些內容?大資料主流技術棧簡介
被廣泛關注的大資料,這幾年在國內的發展,可以說是進入了比較平穩的乙個時期,基本上企業對於技術開發人員的要求,都開始與大資料接軌。那麼學大資料需要學哪些內容,今天我們從大資料主流技術棧開始,為大家做個簡單介紹。大資料發展速度很快,對技術的需求也在不斷更新迭代,從第一代的hadoop為王,到現在的had...
大資料開發技術該怎麼學 都需要掌握什麼技能
大資料開發技術該怎麼學?都需要掌握什麼技能?談起大資料,相信很多人都不陌生了吧 無論你是感嘆大資料的恐怖還是感嘆大資料的神奇,總之,它已經成為我們生活中重要的技術支撐,也是未來網際網路技術發展的重要方向。技術很重要,人才自然是不可或缺的,想要成為的大資料技術人才,就必須要經歷學習技術的枯燥乏味的過程...
大資料專業學什麼,應該學習什麼語言
大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。目前,大資料算是非常火的專業,下面我將和大家談談大資料專業學什麼?大資料專業分為兩種,其一是大資料開發,其二...