大資料讀書筆記 1

2021-09-08 11:26:58 字數 1002 閱讀 2391

1. 資料分片與路由

抽象模型為兩級對映關係,第一級對映是key-partition對映,第二級對映是partition-machine對映。

資料分片有雜湊分片和範圍分片:

雜湊分片只支援點查詢,如cassandra,voltmort,membase;

範圍分片支援範圍查詢,google的bigtable 和ms的azure;

同時支援兩種的yahoo的pnuts。

2.雜湊分片時進行資料分片的常見手段,其中最常見的3中雜湊分片方式分表是:輪詢、虛擬桶、一致雜湊方法

2.1 輪詢也稱雜湊取模方法

h(key)=hash(key)modk

優點:實現簡單

缺點:缺乏靈活性,如新增或者減少一台物理機時需要重新hash

原因:將key-partition對映和partition-machine對映合二為一了,兩部分都由同一雜湊函式完成,導致了機器和對映函式的緊耦合。

2.2 虛擬桶

key-partition對映採用雜湊函式,partition-machine採用**管理實現。

2.3 一致性雜湊

分布式雜湊表dht(distributed hash table)

3. 範圍分片

首先將所有記錄的主鍵進行排序,然後在排好序的主鍵空間裡將記錄劃分成資料分片,每個資料分片儲存有序的主鍵空間片段內的所有記錄。

資料分片在物理機的管理方式往往採用lsm樹。

《大資料時代》讀書筆記

大資料時代 英國人viktor mayer schonberger的著作。最重要的一點是介紹了一種思維模式的變化。主要觀點 大資料是指獲取全部資料樣本,分析全部資料,而不是只做抽樣分析。大資料分析更關注相關性分析,不能做到因果分析 當然會有助於找到原因 不是去找到精確答案,而是要得到事物的聯絡。大資...

實戰大資料(讀書筆記)

1 將電子券傳送到手機上,使用者可以直接拿著手機去消費 2 利用手機上的位置定位功能,公司推出 簽到 服務,可以直接把手機使用者帶到企業活動地點 1 移動終端可以隨時隨地為消費者收集 分析資料,讓消費者與身邊的人更好地互動,即根據位置組織起 2 根據旅行軌跡,組成同類興趣的登山隊 驢友 團等 比如猜...

讀書筆記 《大資料時代 BIG DATA》

大資料時代 big data 維克托.邁爾 捨恩伯格 肯尼思.庫克耶 著 2014年讀到的一本書,溫故而求知新 大資料,量變到質變。4v volume 大量 variety 多樣 velocity 高速 資料產生的速度 value 價值 單個資料的代價值 樣本 總體 精度不在重要,隨機性更重要 線性...