資料分析(二) HBase庫介紹

2021-09-24 09:27:22 字數 1506 閱讀 1090

在傳統運用中,我們主要以線上mysql庫為主,t+1備份到線下的oracle庫的方式實現資料儲存的最優方案,這些傳統資料庫是基於**結構和行儲存,其沒有建立索引將耗費大量的i/o並且建立索引和物化試圖需要耗費大量的時間和資源;而hbase是基於列儲存的,每個列族都由幾個檔案儲存,不同列族的檔案是分離的,這樣的好處是資料即是索引,訪問查詢涉及的列大量降低系統的i/o,並且每一列由乙個線索來處理,可以實現查詢的併發處理,hbase支援海量儲存、pb級處理,在高併發的場景相比傳統關係型資料庫有較大的優勢。

1.hbase簡介:

2.hbase的優缺點:

hbase的優點:

1.列可以動態增加,並且當列為空的時候就不儲存,節省儲存空間。

2.hbase自動切分資料,使得資料儲存自動具有水平擴充套件能力。

3.hbase可以支援高併發順序讀寫操作(因為其有記憶體的快取機制)。

hbase的缺點:

1.不能支援條件查詢,只支援按照row key來查詢

2.暫時不能支援master server的故障切換,當master宕機後,這個儲存系統都會掛掉。

3.hbase與傳統關係型資料庫(rdbms,全稱為 relational database management system)的區別:

1.資料型別:hbase只有簡單的資料型別,只保留字串;傳統資料庫有豐富的資料型別。

2.資料操作:hbase只有簡單的插入、查詢、刪除、清空等操作,表和表之間是分離的,沒有複雜的表和表之間的關係;傳統資料庫通常有各式各樣的函式和連線操作。

3.儲存模式:hbase是基於列儲存的,每個列族都由幾個檔案儲存,不同列族的檔案是分離的,這樣的好處是資料即是索引,訪問查詢涉及的列大量降低系統的i/o,並且每一列由乙個線索來處理,可以實現查詢的併發處理;傳統資料庫是基於**結構和行儲存,其沒有建立索引將耗費大量的i/o並且建立索引和物化試圖需要耗費大量的時間和資源。

4.資料維護:hbase的更新實際上是插入了新的資料;傳統資料庫只是替換和修改。

5.可伸縮性:hbase可以輕鬆的增加或減少硬體的數目,並且對錯誤的相容性比較高;傳統資料庫需要增加中間層才能實現這樣的功能。

6.事務:hbase只可以實現單行的事務性,意味著行與行之間、表與表之前不必滿足事務性;傳統資料庫是可以實現跨行的事務性。

4.hbase與傳統關係型資料庫(rdbms,全稱為 relational database management system)的關係:

hbase能夠支援列式儲存、支援非結構化資料儲存、可擴充套件性好,在實際運用中,我們通常在此基礎上搭建hive分析平台,支撐業務分析部門的要求,同時可以將資料t+1t定時增量同步到數倉,支撐其他資料運用服務。

參考文章2:hbase和hive以及傳統資料庫的區別

資料分析工具 Pandas 功能介紹(二)

我們需要看第一季度的資料是怎樣的,就需要使用條件過濾 體感的舒適適濕度是40 70,我們試著過濾出體感舒適濕度的資料 最後整合上面兩種條件,在一季度體感濕度比較舒適的資料 資料按照某列進行排序 by 引數可以使用字串,也可以是列表,ascending 的引數也可以是單個值或者列表 ascending...

00 資料分析思維介紹

資料分析 資料分析簡介 入門 資料分析解決框架 初級 資料分析過程 高階 同學你好,資料分析思維板塊是資料分析課程首先接觸到的知識,在整體課程中,隨著學習不同資料資料分析工具,我們將會學到3個部分,逐漸理解資料分析是如何在商業中得到應用以及資料分析的框架和操作過程是如何的。當你看到乙個包含資料的描述...

Python資料分析 基礎介紹

最首先,應該熟悉python基本語法 接下來,只會涉及到一點和資料分析相關的基礎內容。在python中數值只有兩個型別,不像其他語言會分的比較細,只有整數和浮點數,其他型別還有字串 布林值 true or false 空值 none 字串是用單雙引號定義的,單雙引號是等價的,但是注意,前後要一致 因...