大資料面臨的挑戰 當大資料遭遇雲計算

2021-09-23 01:11:52 字數 2958 閱讀 3125

本文講的是大資料面臨的挑戰:當大資料遭遇雲計算,據idc的報告,未來十年全球大資料將增加50倍。僅在2023年,我們就將看到1.8zb(也就是1.8萬億gb)的大資料建立產生。這相當於每位美國人每分鐘寫3條tweet,而且還是不停地寫2.6976萬年。在未來十年,管理資料倉儲的伺服器的數量將增加10倍以便迎合50倍的大資料增長。

毫無疑問,大資料將挑戰企業的儲存架構及資料中心基礎設施等,也會引發雲計算、資料倉儲、資料探勘、商業智慧型等應用的連鎖反應。2023年企業會將更多的多tb(1tb=1000gb)資料集用於商務智慧型和商務分析;到2023年,全球資料使用量預計暴增44倍,達到35.2zb(1zb=10億tb)。

大資料面臨的挑戰——risc已無法滿足未來的企業架構需求

對於海量的資料資訊,如何對這些資料進行複雜的應用成了現今資料倉儲、商業智慧型和資料分析技術的研究熱點。資料探勘就是從大量的資料中發現隱含的規律性的內容,解決資料的應用質量問題。充分利用有用的資料,廢棄虛偽無用的資料,是資料探勘技術的最重要的應用。傳統的資料庫中的資料結構性很強,即其中的資料為完全結構化的資料,而目前資料最大特點就是半結構化,因此此類資料探勘比面向單個資料倉儲的資料探勘要複雜得多。

談到傳統資料倉儲的時候,大家不免就會買儲存裝置,選伺服器,不管是ibm power或者是oracle架構的,這些其實都是在傳統時代非常有名的資料庫品牌,把它構建在一起,構成資料倉儲,微軟、cocnos等都提供解決方案。

但從目前來看,現有的資料倉儲已經遠遠不能滿足未來的企業大資料架構。

對企業業務來說,不光要有高擴充套件性,而且是動態的需求,能夠讓裝置自由擴充,不用去管資料倉儲、應用具體執行在這些機器的哪一台上,這些計算能力的耗費完全是根據業務的伸縮而來的。

傳統的架構做這類的專案十年到二十年的時間,它們有乙個特點,資料倉儲的訪問和傳統的不同,所謂的不同就是查詢特別大,查詢的語句特別長、特別複雜,不像去銀行的存提款只是在眾多的記錄中查詢一兩條,它符合大資料查詢的特徵,傳統的查詢索引作用非常有限。在資料庫中涉及多張表的連線,同時還有彙總、算標準差等複雜的運算。但是相反它的併發請求不是很多,乙個企業就是人再多,不會同時超過一千個業務分析員在分析資料。

因此,在資料倉儲誕生的第一天,系統一直就有乙個瓶頸,要把大查詢分解成小任務,這些小任務由並行的伺服器來完成,我們強調小的機器要多,而不要大的機器cpu數少。因此,資料倉儲天生就是mpp、開放架構的cpu加上並行擴充套件橫向擴充套件數量,從這方面來看,擴充套件性較差,並行處理能力有限的risc架構已經不能代表未來的企業架構。

而以英特爾為代表的x86處理器天生就是為大資料應用而生,oracle推出的exadata資料倉儲伺服器採用了英特爾至強(nehalem)處理器、ddr3記憶體和40gbps infiniband,exadata資料庫機第二版的cpu、記憶體和網路速度分別提高了80%、200%、100%,單個資料庫伺服器記憶體容量則達到了72gb,原始磁碟容量和每機架磁碟容量達到100tb、336tb,sun flashfire記憶體卡則實現了高效能的oltp。

當大資料遭遇雲計算

雲計算為什麼能盛行呢?在網際網路領域應用系統的構建:客戶群體是不確定的、系統規模不確定、系統投資不固定、業務應用有很清晰的並行分割特徵、資料倉儲系統的構建、資料倉儲規模可估算、資料倉儲的系統投資與業務分析的價值和回報相關、商業智慧型應用屬於整體應用、saas模式構建資料倉儲系統。

在大資料技術上用雲計算構建下一代資料倉儲成為熱門話題,這當中包括大資料管理,分布式進行檔案系統,如hadoop、mapreduce資料分割與訪問執行;同時sql支援,以hive hadoop為代表的sql介面支援。從系統需求來看,大資料的架構對系統提出了新的挑戰:

1、整合度更高:這意味著乙個標準機箱最大限度完成特定任務,華碩不久推出的一款高密度機架式伺服器rs720,2u高度最大能採用支援4個雙路計算節點,實現單機8個英特爾5600系列處理器和高達總計768g記憶體資源。

2、配置更合理、速度更快:儲存、控制器、i/o通道、記憶體、cpu、網路均衡設計,針對資料倉儲訪問最優設計,比傳統類似平台高出乙個數量級以上,這方面的經典案例是資料倉儲頭號廠商teradata,其採用雙路xeon六核處理器的企業級資料倉儲5650可輕鬆為數千名使用者處理更複雜、更大量的工作負載、持續負載以及批負載、操作性查詢、簡單報表和複雜的分析,所有功能均在同乙個平台上執行。與上一代產品相比,動態企業級資料倉儲5650的效能提高了43%,占地面積保持不變,減少了能源消耗和空間需求。

3、整體能耗更低:同等計算任務,能耗最低。

4、系統更加穩定可靠:能夠消除各種單點故障環節,統一乙個部件、器件的品質和標準。

5、管理維護費用低:資料藏的常規管理全部整合。

6、可規劃和預見的系統擴容、公升級路線圖。

雲計算環境作為大資料處理平台

1.雲計算環境中基本計算單元的分化

企業雲計算平台上雖然有多個平行計算的cpu,但並沒有創造出具有超強資料處理能力的超級cpu,因此雲計算平台需要的是有並行運算能力的軟體系統。同時,當所有使用者的資料全部放在雲端時,雖然儲存容量可以很方便地擴充,但面對大量使用者同時發起的海量資料處理請求,簡單的資料處理邏輯已經無法滿足需要。

可以看到,國內有相當多的電商企業,用小型機和oracle扛了好幾年,並請了全國最牛的oracle的專家不停優化他的oracle和小型機,初期發展可能很快,但是後來由於資料量激增,業務開始受到嚴重影響,最典型的例子無疑是京東**前段時間發生的大規模訪問請求宕機事件,因此他們開始逐漸放棄了oracle或者ms-sql,並逐漸轉向mysql x86的分布式架構。

目前的基本計算單元常常是普通的x86伺服器,它們組成了乙個大的雲,而未來的雲計算單元裡有可能有儲存單元、計算單元、協調單元,總體的效率會更高。

2、對系統穩定性的需求

在應對大規模訪問的時候有一些系統穩定性的追求,來自很多方面,來自網路穩定性、資料庫穩定性。對系統而言,需要把握乙個大原則,需要消除任何單點故障。不光是網路上單點故障,還有來自你呼叫中心裡的單點故障,只要有單點故障一定要消除掉。因為對於電商行業而言,每一秒都是錢,電子商務業務如果宕機乙個小時,損失多少是可以算出來的,電商行業需要非常全面的技術系統監控報警系統。有時候你會發現你如果通過技術系統的監控去推導出你的技術發生問題已經晚了。

原文發布時間為:2012-03-27

大資料 挑戰 機會 大資料視覺化面臨哪些挑戰

資料視覺化在大資料場景下面臨諸多新的挑戰,包括資料規模 資料融合 圖表繪製效率 圖表表達能力 系統可擴充套件性 快速構建能力 資料分析與資料互動等。資料規模 大資料規模大 價值密度降低,受限於螢幕空間,所能顯示的資料量有限。因此為了有效顯示使用者所關注的資料和特徵,需要採用有效的資料壓縮方法。目前已...

大資料發展面臨的挑戰是什麼?

現在大資料是世界都關注的事情,這是因為大資料能夠幫助人們做很多的事情,大資料的發展也是很多國家重視的地方,當然,我國也不例外。我國對大資料還是比較重視的,現在我國的大資料產業發展已經有了一定的基礎,但是我們還不能放鬆,還需要努力,這是因為我國的資料產業還面臨著眾多的挑戰,在這篇文章中我們就給大家詳細...

大資料變革將至 hadoop面臨巨大挑戰

2017年,支援大量結構化和非結構化資料的系統將繼續增長。市場需要資料平台來幫助資料管理人員管理和保護大資料,同時允許終端使用者進行資料分析。這些系統將逐步成熟,在企業內部的it系統中更好地執行。2017年大資料將不再是hadoop一家獨大,也不再是程式設計者們的自娛自樂,企業和終端使用者的不斷湧入...