每個region server管理著許多的region,而集群中又有許多的region server,假如我們要查詢一條資料的話,又如何知道我們要查詢的那條資料在哪個region server的哪個region上呢?
當然我們也可以採用hdfs的namenode機制,記錄每個檔案有哪些block,這些block在**。但是我們也可以發現這種方式很麻煩,一旦namenode掛掉就會非常麻煩。而且還經常要去做合併,恢復。
hbase換了另外一種方式,而且這種方式比原來的方式更好。這其中hmaster不會像namende那樣去管理,它根本不管這個事情,它只負責region server之間的負載均衡。他是通過二級索引的方式找到所要的資料的位置的。客戶端通過zookeeper找到root表的位置,root表中儲存了meta表的整體資料範圍及meta表的位置。meta表中記錄了更細化的資料範圍,以及使用者表的region位置。當然如果每次都這樣查詢肯定也會耗費時間,所以路由快取會把查過的資料暫存。這樣速度就會很快。
大資料學習之路
大資料的學習之路,一直在到處學習零零閃閃的東西,但是從來麼有對自己學習的東西進行整理,以及後續做過的東西,一直找不到對應的東西,接下來會對自己的學習記錄下來,以及同類問題遇見的得以解決 4v特徵 volume 資料量大,pb級別 velocity 輸入和處理速度快 流式資料 value 價值密度低 ...
我的大資料學習之路
2020年是艱難的一年,公司效益不好,每個月到手的工資變少了,從那一刻開始有了危機意識,我的這份工作是傳統行業,在畢業選職業的時候沒有認真對待,一步錯步步錯,現在我開始是從新規劃自己的職業路線,這樣付出了時間和金錢的代價。2021年我的願望是跳到網際網路公司,做大資料相關的工作 同時自己的生活也開始...
大資料學習之路 1
大資料的特點 1.資料 廣 資料格式多樣化 結構化資料 非結構化資料 excel檔案 文字檔案 資料量大 最少是tb級別的,甚至可能是pb級別的 資料增長速度快等 針對以上特點,要考慮的問題 1.資料 廣,如何採集彙總?sqoop,cammel,datax等工具 2.資料採集後,如何儲存?對應出現了...