大資料時代資料管理方式研究
1資料管理技術的回顧
資料管理技術主要經歷了人工管理階段、檔案系統階段和資料庫系統階段。隨著資料應用領域的不斷擴充套件,資料管理所處的環境也越來越複雜,目前廣泛流行的資料庫技術開始暴露出許多弱點,面臨著許多新的挑戰。
1.1人工管理階段
20 世紀 50
年代中期,計算機主要用於科學計算。當時沒有磁碟等直接訪問裝置,只有紙帶、卡片、磁帶等外存,也沒有作業系統和管理資料的專門軟體。該階段管理的資料不儲存、由應用程式管理資料、資料不共享和資料不具有獨立性等特點。
1.2檔案系統階段
20 世紀 50
年代後期到 60
年代中期,隨著計算機硬體和軟體的發展,磁碟、磁鼓等直接訪問裝置開始普及,這一時期的資料處理系統是把計算機中的資料組織成相互獨立的被命名的資料檔案,並可按檔案的名字來進行訪問,對檔案中的記錄進行訪問的資料管理技術。資料可以長期儲存在計算機外存上,可以對資料進行反覆處理,並支援檔案的查詢、修改、插入和刪除等操作。其資料面向特定的應用程式,因此,資料共享性、獨立性差,且冗餘度大,管理和維護的代價也很大。
1.3資料庫階段
20 世紀 60
年代後期以來,計算機效能得到進一步提高,更重要的是出現了大容量磁碟,儲存容量大大增加且**下降。在此基礎上,才有可能克服檔案系統管理資料時的不足,而滿足和解決實際應用中多個使用者、多個應用程式共享資料的要求,從而使資料能為盡可能多的應用程式服務,這就出現了資料庫這樣的資料管理技術。資料庫的特點是資料不再只針對某乙個特定的應用,而是面向全組織,具有整體的結構性,共享性高,冗餘度減小,具有一定的程式與資料之間的獨立性,並且對資料進行統一的控制。
2大資料時代的資料管理技術
大資料(big
data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大資料有
3 個 v,一是大量化(volume),資料量是持續快速增加的,從 tb級別,躍公升到 pb
(velocity),資料生成速度快,也就需要快速的處理能力,因此,產生了「1
秒定律」,就是說一般要在秒級時間範圍內給出分析結果,時間太長就失去價值了,這個速度要求是大資料處理技術和傳統的資料探勘技術最大的區別。
2.1關係型資料庫(rdbms)
20 世紀 70
年代初,ibm 工程師 codd 發表了著名的**「a relational model of data for large
shared
databanks」,標誌著關聯式資料庫時代來臨。關聯式資料庫的理論基礎是關係模型,是借助於集合代數等數學概念和方法來處理資料庫中的資料,現實世界中的實體以及實體之間的聯絡非常容易用關係模型來表示。容易理解的模型、容易掌握的查詢語言、高效的優化器、成熟的技術和產品,使得關聯式資料庫佔據了資料庫市場的絕對的統治地位。隨著網際網路
web2.0 **的興起,半結構化和非結構化資料的大量湧現,傳統的關聯式資料庫在應付 web2.0 **特別是超大規模和高併發的
sns(全稱 social networking services,即社會性網路服務) 型別的 web2.0
純動態**已經顯得力不從心,暴露了很多難以克服的問題。
2.2nosql資料庫
順應時代發展的需要產生了
nosql資料庫技術,其主要特點是採用與關係模型不同的資料模型,當前熱門的
nosql資料庫系統可以說是蓬勃發展、異軍突起,很多公司都熱情追捧之,如:由 google 公司提出的 big table 和
mapreduce 以及 ibm 公司提出的 lotus notes 等。不管是那個公司的 nosql資料庫都圍繞著大資料的 3 個
v,目的就是解決大資料的 3個 v 問題。因此,在設計 nosql
時往往考慮以下幾個原則,首先,採用橫向擴充套件的方式,通過並行處理技術對資料進行劃分並進行並行處理,以獲得高速的讀寫速度;其次,解決資料型別從以結構化資料為主轉向結構化、半結構化、非結構化三者的融合的問題;再次,放鬆對資料的
acid 一致性約束,允許資料暫時出現不一致的情況,接受最終一致性;最後,對各個分割槽資料進行備份(一般是 3
份),應對節點失敗的狀況等。
對資料的應用可以分為分析型應用和操作型應用,分析型應用主要是指對大量資料進行分類、聚集、彙總,最後獲得資料量相對小的分析結果;操作型應用主要是指對資料進行增加、刪除、修改和查詢以及簡單的彙總操作,涉及的資料量一般比較少,事務執行時間一般比較短。目前資料庫可分為關聯式資料庫和
nosql資料庫,根據資料應用的要求,再結合目前資料庫的種類,所以目前資料庫管理方式主要有以下 4 類。
(1)面向操作型的關聯式資料庫技術。
首先,傳統資料庫廠商提供的基於行儲存的關係資料庫系統,如 db2、oracle、sql server
等,以其高度的一致性、精確性、系統可恢復性,在事務處理方面仍然是核心引擎。其次,面向實時計算的記憶體資料庫系統,如
hana、timesten、altibase
等通過把對資料併發控制、查詢和恢復等操作控制在記憶體內部進行,所以獲得了非常高的效能,在很多特定領域如電信、**、網管等得到普遍應用。另外,以
voltdb、clustrix 和nuodb 為代表的 new sql 宣稱能夠在保持 acdi 特性的同時提高了事務處理效能 50
倍 ~60 倍。
(2)面向分析型的關聯式資料庫技術。
首先,teradata
是資料倉儲領域的領頭羊,teradata 在整體上是按 shared nothing
架構體系進行組織的,定位就是大型資料倉儲系統,支援較高的擴充套件性。其次,面向分析型應用,列儲存資料庫的研究形成了另乙個重要的潮流。列儲存資料庫以其高效的壓縮、更高的
i/o 效率等特點,在分析型應用領域獲得了比行儲存資料庫高得多的效能。如:monetdb 和
vertica是乙個典型的基於列儲存技術的資料庫系統。
(3)面向操作型的
nosql 技術。
有些操作型應用不受
acid
高度一致性約束,但對大資料處理需要處理的資料量非常大,對速度效能要求也非常高,這樣就必須依靠大規模集群的並行處理能力來實現資料處理,弱一致性或最終一致性就可以了。這時,操作型
nosql資料庫的優點就可以發揮的淋漓盡致了。如,hbase 一天就可以有超過 200
億個到達硬碟的讀寫操作,實現對大資料的處理。另外,nosql資料庫是乙個資料模型靈活、支援多樣資料型別,如對圖資料建模、儲存和分析,其效能、擴充套件性是關聯式資料庫無法比擬的。
(4)面向分析型的
nosql 技術。
面向分析型應用的
nosql 技術主要依賴於hadoop 分布式計算平台,hadoop 是乙個分布式計算平台,以 hdfs 和 map reduce
為使用者提供系統底層細節透明的分布式基礎架構。《hadoop 經典實踐染技巧》傳統的資料庫廠商
microsoft,oracle,sas,ibm 等紛紛轉向 hadoop 的研究,如微軟公司關閉 dryad 系統,全力投入 map
reduce 的研發,oracle 在 2011 年下半年發布 big plan 戰略計畫,全面進軍大資料處理領域,ibm
則早已捷足先登「,沃森(watson)」計算機就是基於 hadoop 技術開發的產物,同時 ibm 發布了 biginsights
計畫,基於 hadoop,netezza 和
spss(統計分析、資料探勘軟體)等技術和產品構建大資料分析處理的技術框架。同時也湧現出一批新公司來研究hadoop 技術,如
cloudera、maprkarmashpere 等。
3資料管理方式的展望
通過以上分析,可以看出關聯式資料庫的 acid
強調資料一致性通常指關聯資料之間的邏輯關係是否正確和完整,而對於很多網際網路應用來說,對這一致性和隔離性的要求可以降低,而可用性的要求則更為明顯,此時就可以採用
nosql 的兩種弱一致性的理論 base 和 cap.關聯式資料庫和
nosql資料庫並不是想到對立的矛盾體,而是可以相互補充的,根據不同需求使用不同的技術,甚至二者可以共同存在,互不影響。最近幾年,以
spanner 為代表新型資料庫的出現,給資料庫領域注入新鮮血液,這就是融合了一致性和可用性的
newsql,這種新型思維方式或許會是未來大資料處理方式的發展方向。
4 結束語
隨著雲計算、物聯網等的發展,資料呈現**式的增長,人們正被資料洪流所包圍,大資料的時代已經到來。正確利用大資料給人們的生活帶來了極大的便利,但與此同時也給傳統的資料管理方式帶來了極大的挑戰。
大資料時代啟用資料管理新思路
根據分析機構gartner給出的定義,大資料就是那些具有規模大 速度快 種類多三大特徵的資訊資產。從海量資料中篩選出有用的資訊,然後通過各種手段將資訊轉化為洞察力,從而做出正確決策,並最終推動業務發展。通過一系列處理,大資料可以幫助企業制定明智且切實可行的戰略,獲取前所未有的客戶洞察,支援客戶購買行...
大資料管理
1 資料治理 概念 業務中涉及資料使用的一整套管理行為,如何制定和實施針對整個企業內部資料的商業應用和技術管理的一系列政策和流程.組成部分 元資料管理 主資料管理 大資料質量管理 大資料資產化 大資料共享發布 大資料標準 大資料交換整合 元資料管理 收集元資料,對元資料進行查詢 分析 版本管理 後期...
資料時代大資料管理,主要有哪些策略?
1.對大資料時代的大資料管理框架進行創新 在大資料時代的大資料管理形式不斷發展過程中,給企業發展帶來衝擊非常巨大。因此,企業要根據我國資訊科技不斷發展的形式,對大資料管理框架進行全面的設計和創新,如圖1所示。在大資料的處理的過程中,主要是圍繞著資料資產進行管理的,同時對大資料時代的大資料管理制度,進...