從資料庫(database,db)到大資料(big data,bd),看似只是乙個簡單的技術演進,但細細考究不難發現兩者有著本質上的差別。大資料的出現必將顛覆傳統的資料管理方式,在資料**、資料處理方式和資料思維等方面都會帶來革命性變化。
如果要用簡單的方式來比較傳統的資料庫和大資料的區別的話,我們認為「池塘捕魚」和「大海捕魚」是乙個很好的模擬。「池塘捕魚」代表著傳統資料庫時代的資料管理方式,而「大海捕魚」則對應著大資料時代的資料管理方式,「魚」是待處理的資料。「捕魚」環境條件的變化導致了「捕魚」方式的根本性差異。這些差異主要體現在如下幾個方面:
1)資料規模:「池塘」和「大海」最明顯的區別就是規模。「池塘」規模相對較小,即便是先前認為比較大的「池塘」,譬如vldb(very large database),與「大海」xldb(extremely large database)相比仍舊偏小。
「池塘」的處理物件通常以mb為基本單位,而「大海」則常常以gb甚至是tb、pb為基本處理單位。
2)資料型別:過去的「池塘」中,資料的種類單一,往往僅僅有一種或少數幾種,這些資料又以結構化資料為主。而在「大海」中,資料的種類繁多,數以千計,而這些資料又包含著結構化、半結構化以及非結構化的資料,並且半結構化和非結構化資料所佔份額越來越大。
3)模式(schema)和資料的關係:傳統的資料庫都是先有模式,然後才會產生資料。這就好比是先選好合適的「池塘」,然後才會向其中投放適合在該「池塘」環境生長的「魚」。而大資料時代在很多情況下難以預先確定模式,模式只有在資料出現之後才能確定,且模式隨著資料量的增長處於不斷的演變之中。這就好比先有少量的魚類,隨著時間推移,魚的種類和數量都在不斷地增長。魚的變化會使大海的成分和環境處於不斷的變化之中。
4)處理物件:在「池塘」中捕魚,「魚」僅僅是其捕撈物件。而在「大海」中,「魚」除了是捕撈物件之外,還可以通過某些「魚」的存在來判斷其他種類的「魚」是否存在。也就是說傳統資料庫中資料僅作為處理物件,而在大資料時代,要將資料作為一種資源來輔助解決其他諸多領域的問題。
5)處理工具:捕撈「池塘」中的「魚」,一種漁網或少數幾種基本就可以應對,也就是所謂的「one size fits all」。但是在「大海」中,不存在一種漁網能夠捕獲所有魚類的情況,也就是所謂的「no size fits all」。
從「池塘」到「大海」,不僅僅是規模的變大。傳統的資料庫代表著資料工程(data engineering)的處理方式,大資料時代的資料已不僅僅是工程處理的物件,需要採取新的資料思維來應對。圖靈獎獲得者、著名資料庫專家jim gray博士觀察並總結指出,人類自古以來,在科學研究上先後歷經了實驗、理論和計算三種正規化。當資料量不斷增長和累積到今天,這三種傳統正規化在科學研究,特別是一些新的研究領域已經無法很好地發揮作用,需要有一種全新的正規化來指導新形勢下的科學研究。基於這種考慮,jim gray提出了一種新的資料探索型研究方式,他稱之為科學研究的「第四種正規化」(the fourth paradigm)[2]。
四種正規化的比較如表1-1所示。第四種正規化的實質就是從以計算為中心,轉變到以資料處理為中心,也就是我們所說的資料思維。這種方式需要我們從根本上轉變思維。正如前面提到的捕魚方式的轉變,在大資料時代,資料不再僅僅是捕撈的物件,而應當轉變成一種基礎資源,來協同解決其他諸多領域的問題。例如,計算社會科學(computational social science)基於特定社會需求,在特定的社會理論指導下,收集、整理和分析資料足跡(data print),以便進行社會解釋、監控、**與規劃的過程和活動。計算社會科學是一種典型的需要採用第四種正規化來做指導的科學研究領域。duncan j. watts在《nature》雜誌上的文章「a twenty-f?irst century science」也指出借助於社交網路和計算機分析技術,21世紀的社會科學有可能實現定量化的研究,從而成為一門真正的自然科學。
表1-1 科學研究上發現的四種正規化
科學正規化 出現時間 主要方法
實驗 數千年前 通過觀察來描述自然現象
理論 近百年 建立模型、概論
計算 近幾十年 對複雜現象利用計算機進行**模擬
資料探索
(data exploration) 目前 儀器或**器產生資料,計算機軟體將這些資料進行處理,而後儲存於不同地方,最後要將這些資料高效地匯集、整理、統計、分析、共享和歸檔,並加以再利用
《大資料管理概論》一導讀
叢書前言 前言作者簡介 第1章 概述 1.1 大資料的基本概念 1.2 大資料的演變過程 1.3 大資料應用 1.4 大資料的處理模式 1.4.1 批處理 1.4.2 流處理 1.5 大資料管理的關鍵技術 1.5.1 大資料融合 1.5.2 大資料分析 1.5.3 大資料隱私 1.5.4 大資料能耗...
《大資料管理概論》一3 2 大資料儲存與管理方法
快閃儲存器 pcm等新型儲存介質的引入使得大資料儲存架構有了多種選擇。但由於新型儲存介質在 壽命等方面與傳統的磁碟相比不具優勢,因此目前主流的觀點是在大資料儲存系統中同時使用新型儲存介質和傳統儲存介質,由此產生了多種基於新型儲存的大資料儲存架構,如基於pcm的主存架構 基於快閃儲存器的主存擴充套件架...
大資料管理
1 資料治理 概念 業務中涉及資料使用的一整套管理行為,如何制定和實施針對整個企業內部資料的商業應用和技術管理的一系列政策和流程.組成部分 元資料管理 主資料管理 大資料質量管理 大資料資產化 大資料共享發布 大資料標準 大資料交換整合 元資料管理 收集元資料,對元資料進行查詢 分析 版本管理 後期...