由emc贊助的idc數字宇宙研究《從混沌中提取價值》指出,全球的資料量每兩年翻一番, 2023年建立和複製的資料量為1.8zb(1zb=106pb)。2023年以來,為處理大量資料,企業的投資已達到4萬億美元。大資料將催生社會、技術、科學和經濟的變革。
以前,我們習慣稱大量資料為海量資料。從2023年下半年開始,大資料這個概念逐漸為人們所熟知。那麼,大資料比海量資料到底多了些什麼呢?emc中國卓越研發集團首席技術官陶波表示:"大資料與海量資料從本質上講並沒有不同,兩者都反映出資料快速增長的趨勢。但是,海量資料主要是從儲存的角度去考慮問題,而大資料除了包括資料儲存,還包括商務智慧型和資料分析。"正是基於這種認識,emc收購了資料倉儲廠商greenplum。其實,在大資料時代,企業對儲存的要求也有變化,具備橫向擴充套件(scale-out)能力的儲存越來越受到使用者的歡迎。emc收購scale-out nas廠商isilon就是為了順應這種趨勢。isilon與greenplum的組合成了emc邁入大資料時代的敲門磚。
儲存隨需而變
美國一家知名的***租賃企業,每年都會邀請一些協同處理演算法的專家對其使用者資料進行分析,從而了解租賃客戶的需求。一些美國金融企業甚至提出了分析即服務的理念。陶波表示,金融、電信、網際網路等企業大資料的處理和分析有迫切的需求。與傳統的商務智慧型應用相比,大資料對企業資料的處理能力和商務智慧型軟體本身提出了更高的要求:首先,企業必須具備處理大量資料的能力,因為有的企業可能一天之內就要多次處理pb級的資料,這是一些傳統的儲存裝置所不能勝任的;傳統的資料倉儲軟體是針對結構化資料設計的,而大資料報含的主要是非結構化的資料,因此傳統的資料倉儲軟體必須改變。
談到大資料對儲存的影響,陶波表示,具有橫向擴充套件能力的儲存才能更好地處理大量檔案。isilon集群nas產品的主要技術優勢就是橫向擴充套件能力。最新的emc isilon iq 108nl在4u節點中採用3tb企業級hitachi ultrastar驅動器,在單一檔案系統和單個卷中可擴充套件至超過15pb。emc還推出了isilon smartlock資料保留軟體應用,可實現大資料資產從建立到歸檔的完整性和連續性。隨著大資料時代的到來,nas儲存將大行其道。為了提高系統的處理效能,ssd在儲存中的應用也會越來越普遍。
雲計算、大資料相輔相成
為了滿足大資料的需求,商務智慧型軟體必須改變。陶波舉例說:"隨著多核處理器的普及,商務智慧型軟體也要從針對單執行緒的應用轉為針對多執行緒的應用,因此商務智慧型軟體的**可能也要改變。"emc已與許多商務智慧型軟體廠商開展了合作。emc的硬體平台針對greenplum軟體進行了優化,此外還能支援第三方的商務智慧型軟體。
在大資料時代,如何同時處理好結構化資料與非結構化資料對廠商和使用者來說都是乙個挑戰。陶波表示,emc正在對此進行研發。
目前,greenplum有一半的工程師在中國。greenplum的一些重要功能也是在中國研發的,比如greenplum與hadoop、vmware虛擬化平台以及雲平台的相合都是在中國完成的。雲計算將成為大資料處理的乙個支撐平台。許多中小企業可以在雲平台上進行深入的資料分析。
大資料比海量資料多了什麼
由emc贊助的idc數字宇宙研究 從混沌中提取價值 指出,全球的資料量每兩年翻一番,2011年建立和複製的資料量為1.8zb 1zb 106pb 2005年以來,為處理大量資料,企業的投資已達到4萬億美元。大資料將催生社會 技術 科學和經濟的變革。以前,我們習慣稱大量資料為海量資料。從2010年下半...
大資料運維 大資料平台 海量資料
大資料技術很早就在bat這些公司生根發芽,但直到14 15年大資料技術才廣泛應用在各大網際網路公司,大資料技術由此深入各行各業。此時大資料開發人才非常緊缺,很多公司大資料從立項,到大資料平台構建,到專案整個流程開發,到後期大資料專案的運維,都是由大資料開發人員一手完成 此時少有專業大資料運維人才 但...
大資料 什麼是大資料
1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...