列式儲存(columnar or column-based)是相對於傳統關係型資料庫的行式儲存(row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好,直接抄原文了):
ø row-based storage stores atable in a sequence of rows.
ø column-based storage storesa table in a sequence of columns.
下面來看乙個例子:
從上圖可以很清楚地看到,行式儲存下一張表的資料都是放在一起的,但列式儲存下都被分開儲存了。所以它們就有了如下這些優缺點:
行式儲存
列式儲存
優點ø 資料被儲存在一起
ø insert/update容易
ø 查詢時只有涉及到的列會被讀取
ø 投影(projection)很高效
ø 任何列都能作為索引
缺點ø 選擇(selection)時即使只涉及某幾列,所有資料也都會被讀取
ø 選擇完成時,被選擇的列要重新組裝
ø insert/update比較麻煩
注:關係型資料庫理論回顧 - 選擇(selection)和投影(projection)
剛才其實跳過了資料裡提到的另一種技術:通過字典表壓縮資料。為了方面後面的講解,這部分也順帶提一下了。
下面中才是那張表本來的樣子。經過字典表進行資料壓縮後,表中的字串才都變成數字了。正因為每個字串在字典表裡只出現一次了,所以達到了壓縮的目的(有點像規範化和非規範化normalize和denomalize)
下面就是最牛的圖了,通過一條查詢的執行過程說明列式儲存(以及資料壓縮)的優點:
關鍵步驟如下:
1. 去字典表裡找到字串對應數字(只進行一次字串比較)。
2. 用數字去列表裡匹配,匹配上的位置設為1。
3. 把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。
4. 使用這個下標組裝出最終的結果集。
列式儲存和行式儲存
行式儲存資料庫和列式儲存資料庫,隨著業務深入,技能增長,經常會碰到,今天來理解一下。列式儲存 clolumn based 和行式儲存 row based 都是相對於對方的,他們的區別是在磁碟的儲存方式不同,所以在讀寫資料時,方式不同,以至於他們的適用場景也都不同。列式儲存資料庫主要包括 hbase,...
行式儲存與列式儲存
行式儲存與列式儲存 行式儲存 資料儲存以行為單位,儲存完一行就會跳到第二行 row based store。維護大量的索引,儲存成本比較高,不能做到線性擴充套件,對於隨機讀的效率高。最大的特點就是對事務的處理能力支援的非常好。行式儲存最大的優點是關係之間的解決方案,行式儲存實現了關係型資料庫,如果表...
列式儲存和行式儲存的理解詳解
叮嘟!這裡是小啊嗚的學習課程資料整理。好記性不如爛筆頭,今天也是努力進步的一天。一起加油高階吧!列式儲存是指一列中的資料在儲存介質中是連續儲存的 行式儲存是指一行中的資料在儲存介質中是連續儲存的。簡單的說,你可以把列式資料庫認為是每一列都是乙個表,這個表只有一列,如果只在該列進行條件查詢,速度就很快...