什麼是大資料

大資料，官方定義是指那些資料量特別大、資料類別特別複雜的資料集，這種資料集無法用傳統的資料庫進行儲存，管理和處理。大資料的主要特點為資料量大（volume），資料類別複雜（variety），資料處理速度快（velocity）和資料真實性高（veracity），合起來被稱為4v。

大資料，表面上看就是大量複雜的資料，這些資料本身的價值並不高，但是對這些大量複雜的資料進行分析處理後，卻能從中提煉出很有價值的資訊。對大資料的分析，主要分為五個方面：視覺化分析（analytic visualization）、資料探勘演算法（date mining algorithms）、**性分析能力（predictive analytic capabilities）、語義引擎（semantic engines）和資料質量管理（data quality management）。

資料探勘演算法是大資料分析的理論核心，其本質是一組根據演算法事先定義好的數學公式，將收集到的資料作為引數變數帶入其中，從而能夠從大量複雜的資料中提取到有價值的資訊。著名的「啤酒和尿布」的故事就是資料探勘演算法的經典案例。沃爾瑪通過對啤酒和尿布購買資料的分析，挖掘出以前未知的兩者間的聯絡，並利用這種聯絡，提公升了商品的銷量。亞馬遜的推薦引擎和谷歌的廣告系統都大量使用了資料探勘演算法。

**性分析能力是大資料分析最重要的應用領域。從大量複雜的資料中挖掘出規律，建立起科學的事件模型，通過將新的資料帶入模型，就可以**未來的事件走向。**性分析能力常常被應用在金融分析和科學研究領域，用於****或氣象**等。

語義引擎是機器學習的成果之一。過去，計算機對使用者輸入內容的理解僅僅停留在字元階段，不能很好的理解輸入內容的意思，因此常常不能準確的了解使用者的需求。通過對大量複雜的資料進行分析，讓計算機從中自我學習，可以使計算機能夠盡量精確的了解使用者輸入內容的意思，從而把握住使用者的需求，提供更好的使用者體驗。蘋果的siri和谷歌的google now都採用了語義引擎。

資料質量管理是大資料在企業領域的重要應用。為了保證大資料分析結果的準確性，需要將大資料中不真實的資料剔除掉，保留最準確的資料。這就需要建立有效的資料質量管理系統，分析收集到的大量複雜的資料，挑選出真實有效的資料。

對於如何處理大資料，計算機科學界有兩大方向：第乙個方向是集中式計算，就是通過不斷增加處理器的數量來增強單個計算機的計算能力，從而提高處理資料的速度。第二個方向是分布式計算，就是把一組計算機通過網路相互連線組成分散系統，然後將需要處理的大量資料分散成多個部分，交由分散系統內的計算機組同時計算，最後將這些計算結果合併得到最終的結果。儘管分散系統內的單個計算機的計算能力不強，但是由於每個計算機只計算一部分資料，而且是多台計算機同時計算，所以就分散系統而言，處理資料的速度會遠高於單個計算機。

過去，分布式計算理論比較複雜，技術實現比較困難，因此在處理大資料方面，集中式計算一直是主流解決方案。ibm的大型機就是集中式計算的典型硬體，很多銀行和**機構都用它處理大資料。不過，對於當時的網際網路公司來說，ibm的大型機的**過於昂貴。因此，網際網路公司的把研究方向放在了可以使用在廉價計算機上的分布式計算上。

伺服器集群是一種提公升伺服器整體計算能力的解決方案。它是由互相連線在一起的伺服器群所組成的乙個並行式或分布式系統。伺服器集群中的伺服器執行同乙個計算任務。因此，從外部看，這群伺服器表現為一台虛擬的伺服器，對外提供統一的服務。

儘管單台伺服器的運算能力有限，但是將成百上千的伺服器組成伺服器集群後，整個系統就具備了強大的運算能力，可以支援大資料分析的運算負荷。google，amazon，阿里巴巴的計算中心裡的伺服器集群都達到了5000臺伺服器的規模。

2023年到2023年間，google發表了mapreduce、gfs（google file system）和bigtable三篇技術**，提出了一套全新的分布式計算理論。

mapreduce是分布式計算框架，gfs（google file system）是分布式檔案系統，bigtable是基於google file system的資料儲存系統，這三大元件組成了google的分布式計算模型。

google的分布式計算模型相比於傳統的分布式計算模型有三大優勢：首先，它簡化了傳統的分布式計算理論，降低了技術實現的難度，可以進行實際的應用。其次，它可以應用在廉價的計算裝置上，只需增加計算裝置的數量就可以提公升整體的計算能力，應用成本十分低廉。最後，它被google應用在google的計算中心，取得了很好的效果，有了實際應用的證明。

後來，各家網際網路公司開始利用google的分布式計算模型搭建自己的分布式計算系統，google的這三篇**也就成為了大資料時代的技術核心。

由於google沒有開源google分布式計算模型的技術實現，所以其他網際網路公司只能根據google三篇技術**中的相關原理，搭建自己的分布式計算系統。

yahoo的工程師doug cutting和mike cafarella在2023年合作開發了分布式計算系統hadoop。後來，hadoop被貢獻給了apache**會，成為了apache**會的開源專案。doug cutting也成為apache**會的主席，主持hadoop的開發工作。

hadoop採用mapreduce分布式計算框架，並根據gfs開發了hdfs分布式檔案系統，根據bigtable開發了hbase資料儲存系統。儘管和google內部使用的分布式計算系統原理相同，但是hadoop在運算速度上依然達不到google**中的標準。

spark也是apache**會的開源專案，它由加州大學伯克利分校的實驗室開發，是另外一種重要的分布式計算系統。它在hadoop的基礎上進行了一些架構上的改良。spark與hadoop最大的不同點在於，hadoop使用硬碟來儲存資料，而spark使用記憶體來儲存資料，因此spark可以提供超過hadoop100倍的運算速度。但是，由於記憶體斷電後會丟失資料，spark不能用於處理需要長期儲存的資料。

storm是twitter主推的分布式計算系統，它由backtype團隊開發，是apache**會的孵化專案。它在hadoop的基礎上提供了實時運算的特性，可以實時的處理大資料流。不同於hadoop和spark，storm不進行資料的收集和儲存工作，它直接通過網路實時的接受資料並且實時的處理資料，然後直接通過網路實時的傳回結果。

什麼是大資料

大資料什麼是大資料

大資料什麼是大資料？

大資料什麼是大資料？

什麼是大資料

大資料 什麼是大資料

大資料 什麼是大資料？

大資料 什麼是大資料？

相關推薦

大資料什麼是大資料

大資料什麼是大資料？

大資料什麼是大資料？