大資料架構和模式(一) 大資料分類和架構簡介

2021-09-08 10:43:15 字數 2581 閱讀 5488

大資料可通過許多方式來儲存、獲取、處理和分析。每個大資料**都有不同的特徵,包括資料的頻率、量、速度、型別和真實性。處理並儲存大資料時,會涉及到更多維度,比如治理、安全性和策略。選擇一種架構並構建合適的大資料解決方案極具挑戰,因為需要考慮非常多的因素。

這個 「大資料架構和模式」 系列提供了一種結構化和基於模式的方法來簡化定義完整的大資料架構的任務。因為評估乙個業務場景是否存在大資料問題很重要,所以我們包含了一些線索來幫助確定哪些業務問題適合採用大資料解決方案。

如果您花時間研究過大資料解決方案,那麼您一定知道它不是乙個簡單的任務。本系列將介紹查詢滿足您需求的大資料解決方案所涉及的主要步驟。

我們首先介紹術語 「大資料」 所描述的資料型別。為了簡化各種大資料型別的複雜性,我們依據各種引數對大資料進行了分類,為任何大資料解決方案中涉及的各層和高階元件提供乙個邏輯架構。接下來,我們通過定義原子和復合分類模式,提出一種結構來分類大資料業務問題。這些模式有助於確定要應用的合適的解決方案模式。我們提供了來自各行各業的示例業務問題。最後,對於每個元件和模式,我們給出了提供了相關功能的產品。

業務問題可分類為不同的大資料問題型別。以後,我們將使用此型別確定合適的分類模式(原子或復合)和合適的大資料解決方案。但第一步是將業務問題對映到它的大資料型別。下表列出了常見的業務問題並為每個問題分配了一種大資料型別。

表 1. 不同型別的大資料業務問題

業務問題

大資料問題

描述公用事業:**功耗

機器生成的資料

公用事業公司推出了智慧型儀表,按每小時或更短的間隔定期測量水、天然氣和電力的消耗。這些智慧型儀表生成了需要分析的大量間隔資料。

公用事業公司還執行著昂貴而又複雜的大型系統來發電。每個電網包含監視電壓、電流、頻率和其他重要操作特徵的複雜感測器。

要提高操作效率,該公司必須監視感測器所傳送的資料。大資料解決方案可以使用智慧型儀表分析發電(**)和電力消耗(需求)資料。

電信:客戶流失分析

web 和社交資料 交易資料

電信運營商需要構建詳細的客戶流失模型(包含社交**和交易資料,比如 cdr),以跟上競爭形勢。

流失模型的值取決於客戶屬性的質量(客戶主資料,比如生日、性別、位置和收入)和客戶的社交行為。

實現**分析戰略的電信提供商可通過分析使用者的呼叫模式來管理和**流失。

市場營銷:情緒分析

web 和社交資料

營銷部門使用 twitter 源來執**緒分析,以便確定使用者對公司及其產品或服務的評價,尤其是在乙個新產品或版本發布之後。

客戶情緒必須與客戶概要資料相整合,才能得到有意義的結果。依據客戶的人口統計特徵,客戶反饋可能有所不同。

客戶服務:呼叫監視

人類生成的

it 部門正在依靠大資料解決方案來分析應用程式日誌,以便獲取可提高系統效能的洞察。來自各種應用程式**商的日誌檔案具有不同的格式;必須將它們標準化,然後 it 部門才能使用它們。

零售:基於面部識別和社交**的個性化訊息

web 和社交資料 生物識別

零售商可結合使用面部識別技術和來自社交**的**,根據購買行為和位置向客戶提供個性化的營銷資訊。

此功能對零售商忠誠度計畫具有很大的影響,但它具有嚴格的隱私限制。零售商需要在實現這些應用程式之前進行適當的隱私披露。

零售和營銷:移動資料和基於位置的目標

機器生成的資料 交易資料

零售商可根據位置資料為客戶提供特定的**活動和優惠券。解決方案通常旨在在使用者進入乙個店鋪時檢測使用者的位置,或者通過 gps 檢測使用者的位置。

fss、醫療保健:欺詐檢測

機器生成的資料 交易資料

人類生成的

欺詐管理可**給定交易或客戶帳戶遇到欺詐的可能性。解決方案可實時分析事務,生成建議的立即執行的措施,這對阻止第三方欺詐、第一方欺詐和對帳戶特權的蓄意濫用至關重要。

解決方案通常旨在檢測和阻止多個行業的眾多欺詐和風險型別,其中包括:

按特定方向分析大資料的特徵會有所幫助,例如以下特徵:資料如何收集、分析和處理。對資料進行分類後,就可以將它與合適的大資料模式匹配:

處理方法 — 要應用來處理資料的技術型別(比如**、分析、臨時查詢和報告)。業務需求確定了合適的處理方法。可結合使用各種技術。處理方法的選擇,有助於識別要在您的大資料解決方案中使用的合適的工具和技術。

資料頻率和大小 — 預計有多少資料和資料到達的頻率多高。知道頻率和大小,有助於確定儲存機制、儲存格式和所需的預處理工具。資料頻率和大小依賴於資料來源:

資料型別 — 要處理資料型別 — 交易、歷史、主資料等。知道資料型別,有助於將資料隔離在儲存中。

資料來源 — 資料的**(生成資料的地方),比如 web 和社交**、機器生成、人類生成等。識別所有資料來源有助於從業務角度識別資料範圍。該圖顯示了使用最廣泛的資料來源。

資料使用者 — 處理的資料的所有可能使用者的列表:

硬體 — 將在其上實現大資料解決方案的硬體型別,包括商用硬體或最先進的硬體。理解硬體的限制,有助於指導大資料解決方案的選擇。

圖 1. 大資料分類

在本系列剩餘部分中,我們將介紹大資料解決方案的邏輯架構和各層,從訪問到使用大資料。我們將提供資料來源的完整列表,介紹專注於大資料解決方案的每個重要方面的原子模式。我們還將介紹復合模式,解釋可如何結合使用原子模式來解決特定的大資料用例。本系列最後將提供一些解決方案模式,在廣泛使用的用例與各個產品之間建立對應關係。

大資料架構和模式(一)大資料分類和架構簡介

developerworks 摘要 大資料問題的分析和解決通常很複雜。大資料的量 速度和種類使得提取資訊和獲得業務洞察變得很困難。以下操作是乙個良好的開端 依據必須處理的資料的格式 要應用的分析型別 使用的處理技術,以及目標系統需要獲取 載入 處理 分析和儲存資料的資料來源,對大資料問題進行分類。大...

一 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。答 主要的核心元件有hdfs和mapreduce,其他還包括zookeeper hbase hive pig mahout sqoop flume ambari等功能元件 hdfs hdfs具有很好的容錯...

一 大資料概述

1.列舉hadoop生態的各個元件及其功能 以及各個元件之間的相互關係,以圖呈現並加以文字描述。hdfs 分布式儲存系統。yarn 資源排程。mapreduce 任務計算。hive 讓hadoop集群擁有關係型資料庫的sql體驗,本質是hadoop的乙個外掛程式,如果有統計,加減乘除等計算任務就會將...