企業必須考慮的關於大資料架構的6大問題

2021-10-01 01:14:13 字數 1583 閱讀 7168

在拉斯維加斯舉行的dell emc world 2017大會上,戴爾emc系統工程師cory minton解釋了it領導者如何更好地思考其大資料部署。

大資料在業務價值方面承諾了很多,但企業可能難以確定如何部署需要利用的架構和工具。

從描述性統計,到**建模,到人工智慧的一切都是由大資料提供支援。而組織希望通過大資料來實現這一目標,並將決定其需要推出的工具。

在5月8日召開的2023年戴爾emc世界會議上,戴爾emc資料分析的主要系統工程師cory minton發表了演示文稿,解釋了組織在部署大資料時必須做出的最大決定。在做出決定開始之前,每個企業都要問這六個問題:

1.購買與構建?

要問的第乙個問題是組織是否要購買大型資料系統或從頭開始構建。teradata,sas,sap和splunk的熱門產品可以買到並簡單實現,而hortonworks,cloudera,databricks,apache flink可用於構建大型資料系統。

minton表示,購買提供更短的時間,以及商品使用的簡單性和良好的價值。然而,這種簡單性通常會帶來更高的成本,而這些工具通常在低多樣性資料方面效果最佳。如果組織與**商存在現有的關係,則可以更容易地分析新產品並嘗試使用大型資料工具。

許多用於構建大資料系統的流行工具**低廉或可以免費使用,並且它們可以更容易地利用獨特的價值流。其建設路徑為大規模和多樣化提供了機會,但這些工具可能非常複雜。互操作性往往是管理員面臨的最大問題之一。

2.批量與流資料?

minton說,由oracle,hadoop mapreduce和apache spark等產品提供的批量資料是描述性的,可以處理大量的資料。他們也可以安排,並經常被用來建立乙個資料科學家進行實驗的產品平台。

像apache kafka,splunk和flink這樣的產品可以提供能夠捕獲的流資料功能,以建立潛在的**模型。minton表示,使用流式傳輸資料,其速度勝過資料保真度,但也提供了巨大的規模和多樣性。這對於認同devops文化的組織更為有用。

twitter是lambda架構的乙個例子。其資料被分為兩個路徑,其中乙個路徑被饋送到速度層進行快速分析,而另乙個路徑導致批處理和服務層。minton表示,這種模式使組織能夠訪問批量和流**的見解,並平衡有損流。他說,這裡的挑戰是人們必須管理兩個**和應用程​​序基礎。

4.公共雲vs私有雲?

大資料的公共和私有雲需要許多相同的考慮。對於初學者來說,乙個組織必須考慮到最適合他們的人才工作的環境。另外,還應該考慮資料**,安全性和合規性需求,以及彈性消費模型。

5.虛擬化與物理性?

幾年前,虛擬化基礎裝置與物理基礎設施的爭論更加激烈,minton說。然而,虛擬化已經發展到可與物理硬體進行競爭,在大資料部署方面也變得類似。它歸結為組織的管理員更舒適,適用於其現有的基礎設施。

6.das vs. nas?

minton說,直接連線儲存(das)以前是部署hadoop集群的唯一方式。然而,現在ip網路增加了頻寬,網路連線儲存(nas)選項對於大資料更為可行。

使用das很容易上手,而且該模型與軟體定義的概念一致。它是為了處理效能和儲存方面的線性增長而開發的,並且它與流式傳輸資料相當。

網路連線儲存(nas)可以很好地處理多協議需求,提供大規模的效率,並且還可以滿足安全性和合規性需求。

本文**d1net(原創)

企業必須考慮的關於大資料架構的6大問題

在拉斯維加斯舉行的dell emc world 2017大會上,戴爾emc系統工程師cory minton解釋了it領導者如何更好地思考其大資料部署。大資料在業務價值方面承諾了很多,但企業可能難以確定如何部署需要利用的架構和工具。從描述性統計,到 建模,到人工智慧的一切都是由大資料提供支援。而組織希...

規劃企業新IT架構時必須考慮要素

每個組織都具有獨特的業務需求,因此在為公司規劃企業架構方法時,考慮到多種因素是非常重要的。本文將研究在規劃新的或修改後的企業架構時應該考慮的事項。您將探索將業務與技術戰略保持一致的重要性 為什麼交流技能對於您的成功至關重要,以及如何在組織中將自己定位為受信任的顧問。您還將研究一些可在該過程中使用的有...

大資料企業架構以及產生的相關熱門職位

對於剛開始學習大資料的人來說,清楚的明白大資料的企業架構尤為重要,對於以後的學習有著不可替代的作用,我將分享一下我對大資料架構的一些理解,不足之處,希望諒解。這是一張大資料架構的圖 根據上圖,我們可以清楚的了解到大資料的架構分為六層。接下來我將會一一講解各層作用。資料來源 資料來源顧名思義也就是資料...