大資料的概念在2023年火爆的非常徹底,各個行業、各個領域都在不斷的加快對大資料的應用。當然,就大資料的技術本身而言,為了更快、更高效的處理big data,hbase的應用就場景就非常值得關注。
如今,上至世界500強企業,下至中小型實體店都開始借力大資料來實現自身更加快速的發展,那麼對於大資料中的重點內容——hbase,在其實際應用中又該如何分清場景呢?
對於如何分清hbase的應用場景,我們應該先從其概念出發去分析。hbase是hadoop生態圈中的非關係型資料庫,最大的特點是面向列儲存、可以實現在超大規模資料集上的實時讀寫和隨機訪問,可以說是對hdfs的有益補充。傳統的行儲存是將完整的資料行儲存在磁碟中,查詢時會讀取該行的所有資料列。但有些應用場景,只需要一小部分資料列,這種方式就很浪費io。列儲存就是將同乙個資料列的各個值存放在一起,也就是說插入某行資料時,該行的各個資料列的值會存放到不同的地方。好處就是需要某幾列資料時,可以很方便讀取。hbase出現的目的其實就為處理更大、更多的資料提供了便捷,提供了保障,能夠讓處理的速度更快。
此外,hbase的特點我們也應該了解一下。hbase採用的是key/value的儲存方式,這意味著,即使隨著資料量增大,也幾乎不會導致查詢的效能下降。hbase又是乙個列式資料庫(對比於傳統的行式資料庫而言),當你的表字段很多的時候,你甚至可以把其中幾個字段放在集群的一部分機器上,而另外幾個字段放到另外一部分機器上,充分分散了負載壓力。然而,如此複雜的儲存結構和分布式的儲存方式帶來的代價就是:哪怕只是儲存少量資料,它也不會很快。所以有一種對於hbase的說法就很貼切,hbase並不快,只是當資料量很大的時候它慢的不明顯」。可以說,hbase在資料量越多的時候其價值體現的將愈加的明顯。
hbase並不只是擁有優點,其缺點也很明顯,比如:資料分析是hbase的弱項,因為對於hbase乃至整個nosql生態圈來說,基本上都是不支援表關聯的。當你想實現group by 或者order by的時候,你會發現,你需要寫很多的**來實現mapreduce。
關於hbase的含義、特點、劣勢都為大家做了簡答的分析,下面我們就可以列舉一下hbase的應用場景。
場景一:實時場景的應用,hbase之上有opentsdb模組,可以滿足時序類場景的需求。
場景二:構建精準使用者畫像,螞蟻的風控就是構建在hbase之上。
場景二:時空資料,主要是軌跡、氣象網格之類,滴滴打車的軌跡資料主要存在hbase之中,另外在技術所有大一點的資料量的車聯網企業,資料都是存在hbase之中。
場景四:訊息和訂單的處理,在電信領域、銀行領域,不少的訂單查詢底層的儲存,另外不少通訊、訊息同步的應用構建在hbase之上。
根據hbase的特性,我們不難發現其在各個行業的應用都非常豐富,這裡所講的場景比較少,希望能夠為大家帶來一些思路,當然,在實際的應用當中,你也將髮像hbase的場景會比你想象的更加豐富。
HBase的Snapshots功能介紹
introduction to apache hbase snapshots 對照。在之前,備份或者拷貝乙個表只能用copy export表,或者disable表後,從hdfs中拷貝出所有hfile。copy export錶用的是mapreduce來scan和copy表,這會對region serv...
Hbase的應用場景
首先,要確認有足夠多的資料存入hbase。hbase是乙個高可靠性 高效能 列儲存 可伸縮 實時讀寫的分布式資料庫系統。如 果有幾億或者幾十億條記錄要存入hbase,那麼hbase就是乙個正確的選擇 否則如果你僅有幾百萬條甚至更少的資料,那麼hbase當然不是正確的選 擇,這種情況下應當選擇傳統的關...
如何用時間 精力管理打造豐富高效的一天
在快速發展的當代,越來越多的 it 從業者們壓力與日俱增,但是這些繁忙真的創造了對等的價值嗎?答案也許是否定的。只有掌握了時間 精力的管理,才能在最短的時間內完成一天的工作,實現6點下班的 夢想 才會有大量的時間可以用來高效的提公升自己。拒絕低效和疲倦,自己的人生由自己來定義!本場 chat 首先會...