什麼是大資料(Big Data)

2021-07-09 08:47:25 字數 1522 閱讀 4924

可以從四個方面概括:資料量(volume)、處理速度(velocity)、多樣性(variety)、真實性(veracity),簡稱4v。

volume(資料量)

資料量大是大資料的比較明顯的特徵,一般是tb級的資料量,並且每天資料的增長量比較大。

velocity(速度)

要求資料的處理速度比較快,從資料採集、加工處理、分析到產生價值的速度,能夠及時快速的響應,並不能因為資料量大,響應速度就慢下來。

variety(多樣性)

veracity(準確性)

因為採集到的資料會摻雜太多的無用資訊,需要確保收集到的資料非常準確、準確,否則對虛假的資料做處理也不會產生任何有用價值。

對應這些方面,每個方面都需要專用的處理工具:

主要區別體現在資料規模、資料型別(結構化、非結構化)、產生模式(**多樣性)。以及處理物件、處理工具的變化,由以計算為主轉到以資料處理為主。

大資料的處理模式大致可分為兩種:一種為批處理(batch processing),另一種為流處理模式(stream processing)。兩者的區別是批處理是先儲存在處理,流處理是直接處理,然後再儲存,甚至不存。

1、批處理(batch processing)

批處理模式最具代表性的就是mapreduce,它先將原資料分塊,然後分別分發給多個map任務處理,每個map任務對輸入進行解析,提取出鍵值對集合,然後由使用者自定義的map函式對這些鍵值對集合做處理,得到中間結果並輸出到磁碟上。然後由reduce任務讀取這些中間結果,並根據key值進行相關的排序、合併,最後由使用者自定義的reduce函式對這些已排序的結果做處理,得到最終結果並輸出。

從mapreduce的處理過程可以看出其核心設計思想是:

a、將問題分而治之

b、把計算推到資料端,而不是把資料推到計算端,這樣可以避免資料傳輸過程中產生的大量通訊開銷,有效降低網路頻寬。

2、流處理(stream processing)

流處理模式的目標是盡可能快地對最新的資料進行分析並給出結果,因為資料的價值會隨著時間的流逝而減少。

流處理模式將資料視為流,源源不斷的資料就形成了資料流,當新的資料到達時就立刻處理並返回所需結果。資料流本身具有持續性、速度快且資料量大等特點,通常不會對資料做持久化儲存。並且由於響應時間的要求,流處理的過程基本都是在記憶體中進行的,因此記憶體是流處理的乙個瓶頸。

在流處理方面做得比較好的,如twitter的storm、yahoo的s4以及linkedin的kafka等等。

無論是批處理還是流處理都是大資料的可行思路,在實際的大資料處理中,通常並不是簡單的使用其中某一種,更多的是將兩者結合起來使用。

3、大資料的基本處理流程

大資料的處理流程可以定義為通過某種合適的工具,對廣泛異構的資料進行抽取、篩選、整合,並把結果按照一定的標準統一儲存。然後利用合適的資料分析技術對儲存的資料進行分析,從中提取出有價值的資訊,並利用某種方式展現給終端使用者。簡單點說分為資料的抽取與整合、資料分析以及資料解釋。

大資料 什麼是大資料

1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...

大資料 什麼是大資料?

海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...

大資料 什麼是大資料?

在網際網路技術發展到至今階段,大量日常,工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的技術應運而生,這就是大資料技術。換個角度說,大資料是 有海量的資料 有海量的資料進行挖掘的需求,有對海量資料進行挖...