何為大資料架構

2021-09-19 19:38:07 字數 1737 閱讀 6773

大資料架構是用以提取和處理海量資料(一般稱之為「大資料」)的整體系統,因而能夠針對業務目的進行分析整理。該架構可視作基於機構業務需求的大資料解決方案的藍圖。

大資料架構旨在處理下列類別的業務:

•批量處理大資料來源。

•實時處理大資料。

•分析**和機器學習。

大資料架構的好處

可用以分析的資料量每日都在增長。並且,流**資源比過去更多,其中包括流量感測器、健康感測器、事務日誌和活動日誌中提供的資料。但擁有資料僅是業務成功的一半。公司還必須能夠理解資料,並及時應用它來影響重要決策。應用大資料架構能夠幫助公司減少財力並做出重要決策,其中包括:

•控制成本。在儲存大批量資料時,hadoop和基於雲計算的分析等大資料技術能夠明顯地節省成本。

•做出更快、更好的決策。應用大資料架構的流元件,公司能夠及時做出決策。

•**未來需求並建立新品。大資料能夠協助公司考量客戶需求並使用**分析未來發展趨勢。

大資料架構的挑戰

假如做得好,大資料架構能夠為公司節約資金,並協助分折關鍵的趨勢,但它並不是沒有挑戰。在處理大資料時,必須留意下列問題:

(1)資料質量

不論什麼時候使用各種資料來源,資料質量都是一項挑戰。這代表著公司需要做的工作是保障資料格式匹配,而且沒有重複資料或缺失資料將會使分析不可信。公司需要先分析和準備資料,隨後才能將其與其它資料一同開展分析。

(2)擴充套件

大資料的價值在於其數目。可是,這也將會變成乙個關鍵難題。假如公司並未設計架構以進行擴充套件,則或者會很快碰到問題。最先,假如公司不計畫支援基礎建設,那樣支援基礎設施的成本就會增多。這將會會給公司的預決算產生負擔。另一方面,假如公司不準備進行擴充套件,那樣其效能將會會明顯下降。這兩個問題都應當在構建大資料架構的規劃環節取得解決。

(3)安全性

儘管大資料能夠為公司提供對資料的深層次了解,但保護這些資料依然有著挑戰性。欺詐者和黑客或者對公司的資料十分感興趣,他們或者會試著新增自己的假造資料或瀏覽公司的資料以獲得敏感資訊。網際網路犯罪嫌疑人能夠製做資料並將其匯入其資料湖。比如,假定公司追蹤網頁單擊頻次以發覺流量中的不正常模式,並在其網頁上搜尋犯罪活動,網際網路犯罪嫌疑人能夠滲透公司的系統,在公司的大資料中能夠尋找大批量的敏感資訊,假如公司沒有保護周圍環境,加密資料並努力匿名化資料以清除敏感資訊的話,網際網路犯罪嫌疑人可能會發掘其資料以獲得這些資訊。

大資料架構因企業的基礎設施和需求而異,但一般包括以下元件:

•資料來源。所有大資料架構都從源**開始。這可以包含**於資料庫的資料、來自實時源(如物聯網裝置)的資料,及其從應用程式(如windows日誌)生成的靜態檔案。

•實時訊息接收。假如有實時源,則需要在架構中構建一種機制來攝入資料。

•資料儲存。公司需要儲存將通過大資料架構處理的資料。一般而言,資料將儲存在資料湖中,這是乙個可以輕鬆擴充套件的大型非結構化資料庫。

•批處理和實時處理的組合。公司需要同時處理實時資料和靜態資料,因而應在大資料架構中內建批量和實時處理的組合。這是由於能夠應用批處理有效地處理大批量資料,而實時資料需要立刻處理才能夠帶來價值。批處理涉及到長期運轉的作業,用於篩選、聚合和準備資料開展分析。

•分析資料儲存。準備好要分析的資料後,需要將它們放到乙個位置,便於對整個資料集開展分析。分析資料儲存的必要性在於,公司的全部資料都聚集在乙個位置,因而其分析將是全面的,而且針對分析而非事務進行了優化。這可能採用基於雲計算的資料倉儲或關聯式資料庫的形式,具體取決於公司的需求。

•分析或報告工具。在攝入和處理各類資料來源之後,公司需要包含乙個分析資料的工具。一般而言,公司將使用bi(商業智慧型)工具來完成這項工作,而且或者需要資料科學家來探索資料。

大資料為何這麼重要,何為大資料?

大資料為何這麼重要,何為大資料?我們正在經歷一場由資料引發的社會革命,大資料已經廣泛應用於日常生活息息相關的諸多領域,並且正在成為經濟社會發展的新驅動力。大資料不僅是一場技術革命,它還是一場經濟變革。在資訊化發展的新階段,大資料已經成為世界各國競相發展及競爭的焦點。大資料正在改變各國綜合國力,重塑未...

大資料之大資料技術架構

上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...

大資料架構 常見大資料技術

本文是一篇讀書筆記,源自 大資料架構詳解 part i 資料獲取 資料獲取元件 網頁採集 網路爬蟲 日誌收集 中介軟體技術 part ii 流處理 流的概念 流引擎 storm 流引擎 spark streaming 流引擎 flink part iii 互動式分析 互動式分析的概念 mpp db技...