為大資料選擇新的硬體、儲存和其它資料中心基礎設施,這是it專業人員們所面臨的新挑戰。
推行大資料戰略的壓力往往來自高層,因為管理者相信,能有效運用資料的企業將比落後者具備更大優勢。大資料戰略需要資料中心基礎架構作出的改變主要有五點:
一、支援大資料的硬體
大資料導致的儲存需求量每年都將增長60%至80%,鑑於這種快速增長和當前的成本限制,it採購者應選擇在可擴充套件性和儲存速度上最具成本效益的硬體。類似大型機的向上擴充套件體系結構重新興起,因為它們能夠經濟高效地擴充套件,降低總體擁有成本。同樣,在提公升效能方面,固態硬碟(ssd)和固態卡帶都比傳統磁碟做得更好。
類似ibm netezza和oracle exadata的硬體裝置已被證實能有效兼顧可擴充套件性和效能。考慮採用硬體裝置來支援關鍵大資料業務,但也應確認裝置的架構能在未來提供快速效能公升級。
二、圍繞大資料選擇儲存
在成功的大資料策略下,企業可以將來自內部的高質量資料與hadoop挖掘自多個雲**商的低質量資料進行整合。這也就改善了業務相關資料的質量,讓分散在各地的資料能組織成為具備一致和及時性的大資料資源。
大資料正在改變**資料倉儲和松耦合資料集市的決策基礎,後者的儲存庫規模要小得多,既可以替代**資料倉儲,也可以成為**資料倉儲的資料來源。隨著各地辦事機構或者國際子公司的增加,**管理層在業務線擴大的同時更需要高質量的資料來維持管控力度,避免權力的分散。
新的軟體技術承擔了繁重的儲存相關處理工作。由composite software(剛剛被cisco收購)和denodo提供的資料虛擬化軟體能自動發現資料來源並提取資料充實全域性元資料儲存庫,為整個組織提供跨越內部和外部的所有資料的公共資料庫外觀和體驗。主資料管理軟體通過建立公用主記錄提高了資料質量,消除了費時的資料倉儲檢索。
企業web外鏈需求加深了對公眾和混合雲的依賴。許多大型企業發現他們需要來自於多個雲**商的大資料,卻不能指望供雲應商會負責整合這些資料。企業只能從資料虛擬化**商尋求工具來跨多個雲集成大資料。
三、利用ssd的儲存分層策略
儲存成本很高,而且越快的儲存也就越昂貴。最重要的是,大資料要求儲存同時提供大容量和「大」效能。儲存分層在儲存資源池中提供多種成本/效能選項,從昂貴的高效能固態儲存到傳統的序列scsi(sas)磁碟儲存,這些選項的組合降低了總擁有成本。在主記憶體和磁碟之間增加乙個固態層將有助於將大資料任務的效能維持在高位,而且不會引起儲存成本失控。
ssd的用量應遵從「90-10」的儲存分層規則:成本和速度的最佳組合比例是:使用大約10%的ssd和90%的機械硬碟。這一策略讓it公司用僅增加10%成本的代價就能獲得90%以上的效能提公升。主記憶體和ssd的容量比例也遵從同樣的規則。
由於ssd的效能**比的提公升速度超過傳統磁碟(容量提公升,**降低),預計在不久的將來傳統磁碟和ssd的配置比例會變為遵循80-20的規則。
ibm blu acceleration這類最新的縱列和記憶體資料庫設施能利用ssd獲得遠超傳統磁碟的效能,它們的設計能夠有效發揮ssd這類「扁平化磁碟」的優勢。
四、大資料分析和報告能力
雖然嵌入式分析工具已經可以利用報告和自動優化功能改善業務流程,但大資料再次改變了分析規則。例如,和傳統上對單個客戶進行主要行為分析洞察相比,大資料戰略能為每個客戶建立乙個迭代和洞察分析執行緒,讓公司能跟蹤客戶並更好地維持與所有客戶的長期關係。
典型的大資料分析從業人員被稱為資料科學家,和常規的it主管不同,他們更可能同時擔任cmo(營銷總監)。然而,it專業人員必須明白他們公司的大資料策略對資料科學家的工作產生的影響。
這意味著需要在自動化的報告和嵌入分析之外人工新增第三方審議內容:專設和鬆散耦合分析。支援專設查詢的分析和統計工具是必要的軟體前提。許多傳統it**商以及雲**商——如ibm、cognos和birst——正在擴充這些功能。
五、企業中的hadoop
hadoop為資料密集型應用提供「緊貼著」mapreduce檔案系統處理程式框架的分布式檔案系統。此檔案系統支援針對富文字資料的並行事務擴充套件,例如社交**資料。
許多it公司通過在企業內建立自己的hadoop版本來解決從web獲取hadoop資料來源的問題。然而,缺乏專業知識是一種挑戰:精通這種發展中的web資料管理框架的專業和藝術的it管理人員猶如鳳毛麟角。
組織開發他們自己的資料管理工具時應該留意,如ibm、oracle和emc的這些主要**商,往往既提供專有產品用於訪問hadoop資料,也可進行定製開發,讓it公司不需要專門的資料歸納措施就能訪問需要的資料。如果您決定搭建自己的資料平台,**商也提供整合服務,使hadoop更貼合現有it資源來高效運作。
每個公司圍繞大資料的相關決策都會有所不同。請記住,隨著圍繞大資料的技術演變,大資料戰略也應當及時調整,與時俱進。
原文發布時間為:2023年05月15日
資料中心基礎設施規劃設計16問答
1 資料中心的價值指標是什麼?可用性 適應性 tco 2 什麼是資料中心的可用性指標?可用性a mtbf mtbf mttr mtfb 無故障工作時間 mttr 故障後平均修復時間 3 什麼是資料中心的適應性指標?部署速度 擴充套件能力 重新配置能力 對資料中心適應性的評估 4 tco包括哪些?tc...
資料中心導航 智慧型化基礎設施管理系統
本文講的是資料中心導航 智慧型化基礎設施管理系統,新的技術浪潮對桌面應用提出了更高的頻寬要求,而對主幹網路的頻寬要求則還要更高。這意味著您的基礎設施網路必須比以往更強大 更可靠 可用性更高。不可否認,網路已成為當今社會的第四種公共設施,而且必須是全天候可用的。it 經理或技術支援人員只需在 正常 工...
超融合基礎設施產品為資料中心增添動力
私有雲棧 商,如swiftstack,也同樣在蠶食著市場,它們讓市場的競爭更加激烈。哦,別忘了amazon web services和microsoft azure公有雲,它們承載著大量的應用程式和資料。下面是我對這些趨勢的驅動因素的一些看法,以及關於如何對下一代資料中心作出一些基本決策的建議。乙個...