更關注資料分析層面(olap)
一次寫入、多次讀取
hdfs適合批處理場景,不支援資料隨機查詢,不適合增量資料處理且不支援資料更新
分布式檔案系統的動態查詢,hdfs的隨機讀寫操作
hbase並不適合傳統的事物處理程式或關聯分析,不支援複雜查詢
分布式檔案系統的類sql 查詢
分布式計算框架,微批量資料的處理
主要在於彈性、 和分布式兩個特點
高吞吐的訊息佇列、系統間的解耦
1、先做事情 建立索引(倒排索引)
2、少做事情 域中檢索
mesos是apache下的開源布式資源管理框架,它被稱為是分布式系統的核心
1、可分割、2、可壓縮、3、可序列化、4、可傳輸
儲存時,預讀功能,統計資訊
讀取時,可以根據統計資訊做push down
大資料技術相關的個人講義
微服務是一種服務間松耦合的、每個服務之間高度自治並且使用輕量級協議進行通訊的可持續整合部署的分布式架構體系
大資料 hadoop學習總結鏈結(持續更新)
hadoop系列介紹 含hdfs mapreduce hive hbase等基本元件的介紹 任務hdfs增刪改查 含hdfs針對檔案的基本操作,類似於linux的操作 任務hive指令碼的啟動,建立表,和執行sql語句 該部分設計sql語言 學習 然後hive的概念 機制和基礎命令可以參考以下鏈結 ...
Spark 分割槽 任務等概念總結
spark隱式建立由操作組成的邏輯上的有向無環圖。驅動器執行時,它會把這個邏輯圖轉換為物理執行計畫,然後將邏輯計畫轉換為一系列的步驟 stage 每個步驟由多個任務組成。步驟組成任務 資料組成任務。所以資料和對資料的操作都封裝在任務裡面了?資料是分布的,那麼步驟的執行是什麼過程?因為是流水線操作,所...
大資料元件常用埠總結 持續更新中
元件名稱 埠號埠作用 hadoop yarn hdfs 50070 hdfs web ui埠 8088 yarn 的web ui 介面 19888 jobhistory web ui埠 8020 高可用的hdfs rpc埠 9000 非高可用的hdfs rpc埠 8485 journalnode 的...