大資料和雲計算的衝突

2021-09-20 22:11:54 字數 2272 閱讀 6595

最近,it行業專家在參加相關會議時發現了乙個隱藏的主題,那就是雖然很多人將關注的重點轉移到基於雲計算的架構(混合雲)以及所需要的雲管理平台,但會議的報告表明,很多人都承認並沒有密切關注全球數字資料量的巨大增長。

儲存**商purestorage公司的演講報告引用了其他兩家**商的兩個資料點:首先,思科公司2023年6月發布的***「zettabyte時代:趨勢與分析」推斷了網際網路頻寬的增長。其次是由希捷公司委託idc公司進行研究的調查報告「資料時代2025」推測了全球資料增長的趨勢。purestorage公司結合了這兩家公司的推斷,得出了結論。如下圖所示。

purestorage公司的報告描述了全球資料增長和全球網際網路頻寬增長之間的衝突

如果這些趨勢成為現實,並且有足夠的理由認為這些**是合理的,那麼這些趨勢將在未來幾年對計算和資料格局產生重大影響。並將對雲計算的應用產生特別的影響。注意:雲計算是真實的,將成為未來it環境的重要組成部分,但是it部門認為它是一種靈丹妙藥這種簡單化的想法,會讓人想起當初網路熱潮的破滅。而人們知道將會有什麼樣的結果。

不能迴避的問題無論如何,所有it都有兩個核心要素:資料與資料的邏輯。每個使用大資料的人都知道:要使用大量的資料,首先需要對資料進行處理,而其處理都會產生乙個傳輸瓶頸,並嚴重影響其效能,並且這種邏輯的任何功能都變成純粹的理論。

即使有少量的資料,這也可能是因為延遲而發生。例如,企業將其應用程式伺服器遷移到雲端,同時將資料庫伺服器保留在本地,這可能在理論上可行,但是當應用程式對資料庫與資料庫之間的網路延遲敏感時,就根本不起作用。對於少量的資料來說,情況就是如此。這就是為什麼許多組織都在嘗試調整軟體的原因,使其對延遲的敏感度降低,從而能夠進入雲端。但是,如果資料量很大,則需要將資料處理和資料彼此靠近,否則就無法工作。企業增加對大量並行性的需求來處理這些資料,並獲得hadoop和其他處理大量資料問題的體系結構。

現在,全球的資料量呈指數增長。如果idc公司的推測成為事實的話,那麼在幾年的時間裡,全世界將儲存大約50zb的資料。另一方面,雖然網際網路傳輸資料的總容量也在增長,但增長速度更為緩慢。在全球資料量增長到50zb的同一時期,網際網路總頻寬將達到每年2.5zb(如果思科的推斷成為事實的話)。

現在這個隱患實際上成為了乙個問題嗎?如果處理或使用這些資料在本地部署的資料中心發生的話,也就是說在同乙個資料中心中儲存資料。但是,一方面,資料量呈指數增長,另一方面,全球各行業也在積極尋求雲戰略,就是把將所有型別的工作負載都遷移到雲端,即使是「無伺服器」(例如,aws lambda),這樣的做法也是絕對極端的。

假設只有小規模的結果(從龐大的資料集中計算出來)也許會有所幫助,因為大量資料的實際價值來自它們的結合。這可能意味著將來自不同所有者的資料(例如企業的客戶記錄與來自twitter的資料)結合起來。而這所有不同的集合將會成為乙個難題。

所以,人們看到的是兩個相反的事態發展。一方面,人們都忙於適應基於雲的體系結構,這種體系結構最終是基於分布式資料的分布式處理。另一方面,人們使用的資料量越來越大,必須將資料和處理整合到乙個物理位置。

那麼這意味著什麼

人們可以預期,hadoop在應用程式架構層面所做的工作也將在全球範圍內發生:龐大的資料集將成為使資料的邏輯具有意義的吸引力。而那些龐大的資料集將會被吸引到一起。

舉個例子:許多公司現在都在努力減少移動資料的需求。因此,在物聯網領域有很多關於邊緣計算的討論:本地處理感測器和其他物聯網裝置的資料。當然,這也意味著處理過程也必須是本地化的,可以放心地假設一下,企業不會在一組感測器中擁有同樣的計算能力,而不是在大分析中可以做到的設定。或者:也許自主駕駛汽車的資料很可能不會再採用hadoop集群,而可以通過這種方式來最小化資料流量,但以計算量為代價。

這個問題還有另乙個解決方案:與資料中心結合在一起。資料中心託管提供商提供的服務正在崛起。他們提供具有優化內部流量功能的大型資料中心,雲計算提供商和大型雲使用者的伺服器都在一起。從邏輯上講,使用者的業務可能在雲端,但實際上與雲計算服務提供商在同一處所。

企業不僅想在aws或azure上執行其邏輯資料,也想在資料中心這樣做,企業也有自己的私有資料湖,所以所有的資料都在本地處理,資料聚合也在本地。但是資料中心託管模式是另一種可能的解決方案,用於解決因資料呈指數級增長而帶來的頻寬和延遲問題。

情況可能不像那兩個調查報告描述的那樣可怕。例如,所有資料的實際平均波動率最終將非常低。另一方面,企業不希望在陳舊的資料上執行分析。但是可以得出乙個結論:簡單地假設企業可以將其工作負載分配給不同的雲提供商是有風險的,尤其是如果同時處理的資料量(如果企業都想把他們自己的資料與來自twitter、facebook的資料流結合起來,那麼更不用說這些組合產生了各種各樣的新資料流)。

因此,企業對資料和處理的位置做出良好的戰略設計決策是成功的關鍵。

本文出處:暢享網

大資料和雲計算

大資料和雲計算 大資料是指那些超過傳統資料庫系統處理能力的資料。它的資料規模和轉輸速度要求很高,或者其結構不適合原本的資料庫系統。舉個列子 某q的聊天記錄,每天都有上億的聊天記錄產生,於是有商家就找到它通過大資料分析得出他們想要的一些使用者的行為習慣。如果乙個酒廠想要生產某種酒,它就可以找到某q提取...

大資料和雲計算

大資料和雲計算的區別 1 目的不同 大資料是為了發掘資訊價值,而雲計算主要是通過網際網路管理資源,提供相應的服務。2 物件不同 大資料的物件是資料,雲計算的物件是網際網路資源以及應用等。3 背景不同 大資料的出現在於使用者和社會各行各業所產生大的資料呈現幾何倍數的增長 雲計算的出現在於使用者服務需求...

大資料和雲計算的關係

1 什麼是大資料 ibm提出了大資料的5v特徵 volume 大量 velocity 高速 variety 多樣 value 價值 veracity 真實性 個人理解 大資料是在資訊資料 時代,為了更經濟地從高頻率獲取的 大容量的 不同結構和型別的資料中獲取價值,而設計的新一代技術架構,是必須的思想...