外行人看大資料 大資料處理的關鍵技術

2021-09-23 13:00:17 字數 1211 閱讀 5146

大資料技術,從本質上講是從型別各異、內容龐大的資料中快速獲得有價值資訊的技術。目前,隨著大資料領域被廣泛關注,大量新的技術已經開始湧現出來,而這些技術將成為大資料採集、儲存、分析、表現的重要工具。

大資料處理的關鍵技術主要包括:資料採集、資料預處理(資料清理、資料整合、資料變換等)、大資料儲存、資料分析和挖掘、資料的呈現與應用(資料視覺化、資料安全與隱私等)。

該圖展示了如何將大量的資料經過一系列的加工和處理,最終以有價值的資訊形式到達使用者的手中。在資料分析中,雲技術與傳統方法之間進行聯合,使得一些傳統的資料分析方法能夠成功地運用到大資料的範疇中來。

一、資料的採集技術

二、資料整合與處理技術

資料的整合就是將各個分散的資料庫採集來的資料整合到乙個集中的大型分布式資料庫,或者分布式儲存集群中,以便對資料進行集中的處理。

該階段的挑戰主要是整合的資料量大,每秒的整合資料量一般會達到百兆,甚至千兆。

三、大資料儲存及管理技術

資料的海量化和快增長特徵是大資料對儲存技術提出的首要挑戰。為適應大資料環境下爆發式增長的資料量,大資料採用由成千上萬臺廉價pc來儲存資料方案,以降低成本,同時提供高擴充套件性。

考慮到系統由大量廉價易損的硬體組成,為了保證檔案整體可靠性,大資料通常對同乙份資料在不同節點上儲存多份副本,同時,為了保障海量資料的讀寫能力,大資料借助分布式儲存架構提供高吐量的資料訪問。

目前,google的gfs(google file system)和hadoop hdfs(hadoop distributed file system是較為有名的大資料檔案儲存技術。hdfs是gfs的開源實現,它們均採用分布式儲存的方式儲存資料(將檔案塊複製在幾個不同的節儲節點上)。在實現原理上,它們均採用主從控制模式(主節點儲存元資料、接收應用請求並且根據請求型別進行應答,從節點則負責儲存資料)。

大資料的資料管理技術的典型代表是google 的 big table 和hadoop的hbase。big table 基於gfs,hbase基於hdfs。作為nosql(not only sql)資料庫,它們為應用提供資料結構化儲存功能和類似資料庫的簡單資料查詢功能,並為mapreduce 等並行處理方式提供資料來源或資料結果的儲存。

四、大資料的分析與挖掘

資料分析與挖掘是大資料處理流程中最為關鍵的步驟。

大資料分析技術的發展需要取得兩個方面的突破:

一是對體量龐大的結構化和半結構化資料進行高效率的深度分析,挖掘隱性知識(如:從自然語言構成的文字網頁中理解和識別語義、情感、意圖等);

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...

大資料資料處理分析

案例1 假設乙個檔案中有9億條不重複的9位整數,現在要求對這個檔案進行排序。方法 bit 位操作 首先32位機的定址能力是 2的32次方,即4g.定址能力最大是這樣了.乙個最大的9位整數為999999999 這9億條資料是不重複的 宣告乙個bit陣列,長度為10億 一共需要10億 8 1024 10...

大資料處理隨筆

1.mssql當資料庫資料超過1000萬的時候超時是正常的,所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用 開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫,只可以查詢操作,這樣的話可以在這個表上面建立索引...