大資料是近年來比較熱門的概念,在整個大資料技術中又以hadoop生態圈較為常用。由於整個hadoop生態所涉及的服務比較多,很容易造成混亂。在此結合自己在工作中所接觸到的知識作一篇簡單隨筆來記錄一下,以供眾多對大資料有興趣的朋友了解。
hdfs:簡單的說就是乙個分布式檔案系統,類似於fat32,ntfs,是一種檔案格式,是底層的。主要解決單機儲存能力有限的問題。
hive:主要解決資料處理和計算問題,不支援更改資料的操作。
hive是hadoop資料倉儲,嚴格來說,不是資料庫,主要是讓開發人員能夠通過sql來計算和處理hdfs上的結構化資料,適用於離線的批量資料計算。)
hbase:hadoop database 的簡稱,也就是基於hadoop資料庫,採用的是列式儲存。
主要解決實時資料查詢問題。是一種nosql資料庫,適用於海量明細資料(十億、百億)的隨機實時查詢,如日誌明細、交易清單、軌跡行為等。
hive和hbase兩者的關係:hive和hbase一般情況下是配合使用的,因為他們某乙個很難適用所有場景。
資料的一般處理流程:
1、通過etl工具將資料來源抽取到hdfs儲存;
2、通過hive清洗、處理和計算原始資料;
3、hive清洗處理後的結果,如果是面向海量資料隨機查詢場景的可存入hbase。若面向的是離線批量處理,則仍然放在hive中,如公司銷售年度報表;
5、資料應用從hbase或hive查詢資料。
《大資料 (電商數倉專案) 集群各服務啟動指令碼》
1.hadoop 啟動停止指令碼 yx hadoop.sh bin bash hadoop集群的一鍵啟動指令碼 if 1 then echo 請輸入start stop引數 exit fi 只允許傳入start和stop引數 if 1 start 1 stop then 1 dfs.sh 1 yar...
如何理解Hadoop與大資料之間的關係
首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...
如何理解Hadoop與大資料之間的關係
首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...