大資料技術當中,在海量資料的儲存環節,涉及到兩個重要的概念,就是分布式資料儲存與資料庫,穩定高效安全的資料儲存,才能為後續的計算分析環節,提供穩固的支援。今天的大資料概念解析,我們來講講分布式儲存與資料庫。
進入大資料時代,資料特徵發生了明顯的變化,資料規模大、非結構化/半結構化的資料多,使得大資料儲存本身也需要克服很多的問題。
要實現大規模資料的計算分析加工等問題,對於企業而言,需要通過各種手段來解決相關的問題,比如說通過優化儲存基礎設施,或者搭建高效能的大資料儲存框架等等。
海量資料的儲存任務,針對於不同的應用場景,往往需要因地制宜地選擇儲存方案,因此有了物件儲存、塊儲存、檔案系統儲存等。
分布式儲存系統面向海量資料的儲存訪問與共享需求,提供基於多儲存節點的高效能,高可靠和可伸縮性的資料儲存和訪問能力,實現分布式儲存節點上多使用者的訪問共享。
目前業界比較流行的分布式儲存系統包括:hdfs、openstack swift、ceph、glusterfs、lustre、afs、oss等。
關係型資料庫是建立在關係模型基礎上的資料庫,借助於集合代數等數學概念和方法來處理資料庫中的資料。
目前業界比較流行的分布式關係型資料庫包括:drds、tidb、greenplum、cobar、aurora、mycat等。
目前業界比較流行的分析型資料庫包括:kylin、analyticdb、druid、clickhouse、vertica、monetdb、infinidb、luciddb等。
圖資料庫的基本含義是以「圖」這種資料結構儲存和查詢資料,而不是儲存的資料庫。
目前業界比較流行的圖資料庫包括:titan、neo4j、arangodb、orientdb、mapgraph、allegrograph等。
列式資料庫是以列相關儲存架構進行資料儲存的資料庫,主要適合於批量資料處理和即時查詢。
目前業界比較流行的列儲存資料庫包括:phoenix、cassandra、hbase、kudu、hypertable等。
文件型資料庫是nosql中非常重要的乙個分支,它主要用來儲存、索引並管理面向文件的資料或者類似的半結構化資料。
目前業界比較流行的文件型資料庫包括:mongodb、couchdb、orientdb、marklogic等。
鍵值儲存(key-value)是nosql中,資料模型中比較簡單的乙個了,主要就是用雜湊表,通過對於鍵(key)的查詢來找到特定的資料。
目前業界比較流行的鍵值儲存資料庫包括:redis、memcached、tair等。
關於大資料概念解析,分布式儲存與資料庫,以上就為大家做了乙個簡單的介紹了。大資料儲存環節,涉及到分布式與資料庫,是需要重點去掌握的一部分,對於主流的技術架構也需要有相應程度的掌握。
大資料概念解析 分布式計算與伺服器集群
進入大資料學習當中,相關的專業詞彙很多,尤其是涉及到技術概念,對於概念詞彙的理解,對於後續的技術學習和掌握,也是有好處的。今天我們來著重講解大資料當中的兩個重要概念,分布式計算以及伺服器集群。大資料技術當中,分布式是非常核心的概念,從儲存到計算到分析,大資料處理的整個流程當中,分布式不可或缺。對於如...
分布式實踐之概念解析
1.分布式和集群 分布式 乙個業務分拆多個子業務,部署在不同的伺服器上 集群 同乙個業務,部署在多個伺服器上 小飯店原來只有乙個廚師,切菜洗菜備料炒菜全乾。後來客人多了,廚房乙個廚師忙不過來,又請了個廚師,兩個廚師都能炒一樣的菜,這兩個廚師的關係是集群。為了讓廚師專心炒菜,把菜做到極致,又請了個配菜...
大資料分布式系統涉及的基本概念
分割方法 水平分割水平分割 horizontal splitting 就是把全域性關係的元組分割成一些子集,這些子集被稱為資料分片或段 fragment 資料分片中的資料可能是由於某種共同的性質 如地理 歸屬 而需要聚集一起的。通常,乙個關係中的資料分片是互不相交的,這些分片可以選擇地放在乙個站點上...