大資料可算是當下的時髦概念,連賣菜的大爺都能扯上幾句大資料,可到底什麼是大資料?
大資料概念的最早正式提出是在2023年的5月,麥肯錫全球研究院發布了一篇名為《大資料:創新、競爭和生產力的下乙個前沿》的研究報告。文中對大資料做了以下定義:
大資料:超過目前世界上資料庫軟體捕獲,儲存,管理,以及分析能力的資料量最新的維基百科也基本沿用了這個定義,可見大資料的「大」並非絕對的多少tb,多少pb的概念,而是相對於目前人類的資料處理能力而言的。
那麼我們來看下,近幾年究竟出現了哪些傳統資料庫難以處理又有很高的分析價值的資料呢?
拿facebook(臉譜)舉個例子,這家公司2023年建立,到現在已經擁有超過10億使用者,這些使用者每天產生的資料超過300tb(寫入500g的硬碟需要6百個,刻到5g的***需要6萬張,鋪滿乙個標準籃球場還有得多)。
在分析這些資料的時候,傳統的關係型資料庫顯得有點力不從心。區別於傳統的結構明確的資料,當今我們面臨的大資料通常是碎片化,非結構化的:
非結構化資料:字段長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子字段構成,例如全文文字、影象、聲音、影視、超**等資訊傳統關係型資料庫注重消除資料冗餘,有著名的三大正規化;到了大資料時代,冗餘成了一種常態,儲存成本顯著下降,人們關心的不再是用最小的空間把資料存下來,而是如何迅速的從海量的資料裡總結出有用的資訊;在這樣的背景下,一些新型的工具如hadoop,nosql資料庫迅速的發展了起來。
威廉將會在之後的文章中對hadoop做更深入的**
題外話:hadoop的核心基礎有兩個,檔案系統叫hdfs(hadoop分布式檔案系統),演算法叫mapreduce(這個一般不翻譯,也不知道該怎麼翻。。);這兩個東西是google在2023年搞出來的兩篇**,hadoop的創始人doug看到了,發現正好可以用來實現他之前苦思冥想一直沒有思路的網頁檢索軟體,做出來一看,還挺好用,於是給別人用,用的人多了之後就成了apache的頂級專案,在雅虎的支援下,現在已經從乙個邊緣技術幾乎發展成了大資料處理軟體的事實標準。
所以想說一句,技術的根本還是服務於需求,技術滿足需求,需求促使更多的人來改進這項技術,良性迴圈。
大資料 大資料的前世今生
隨著資料對生產 生活越來越重要,資料分析也逐漸成為一門顯學,在各個領域中都發揮著重要的作用。那麼你了解資料分析的發展歷史嗎?從國家現狀衍生出的統計學,從博彩誕生而來的概率論,為資料分析奠定了堅實的基礎。伴隨著各路大神的粉墨登場,資料分析也活色生香起來,從霍亂神醫 到護理之祖南丁格爾,從二戰日本的自殺...
LinkedList前世今生
1 linkedlist元素在內部儲存的實現,節點定義即指向前一元素的指標,後一元素的指標,當前元素的值。private static class entry 2 建立乙個空鍊錶。預設有個頭指標header。private transient entryheader new entry null,n...
前世今生 STL
嘛,string就是乙個用於字串處理的標準類庫,但是需要注意的是其速度可能會比直接操縱char陣列要慢一些。reverse這個方法是我一直都想找到但是沒有找到的,在判斷回文的時候格外好用。string s abcdef string ss s ss abcdef reverse ss.begin s...