解密谷歌的大資料技術

2022-09-08 15:12:11 字數 2604 閱讀 7779

毫不誇張的說,google就是大資料時代的開拓者,google的大資料技術架構一直都是全球網際網路企業爭相學習和研究的重點,也為行業大資料技術的架構樹立起了標桿。

下面就為大家解密google大資料技術架構:

一、谷歌的資料中心

谷歌目前建設了世界上最快最大的資料中心,這八個資料中心都距離加州的總部很遠。而且還在中國香港、台灣以及新加坡也有資料中心。

二、谷歌新一代搜尋引擎平台和大資料分析技術

谷歌是gfs mapreduce bigtable的締造者,但是谷歌在新一代的搜尋引擎這一塊的領域計算機能力加強,替換了原來的系統,新一代的搜尋引擎的核心系統:

1.基於percolator的增量處理索引系統來取代mapreduce批處理索引系統,這個索引系統被稱作caffeine,它比mapreduce批處理索引系統搜尋更快。

2.專為bigtable設計的分布式儲存colossus,也被稱為gfs2(二代google檔案系統),它專為建立caffeine搜尋索引系統而用。

3.列儲存資料庫bigtable,但為了更好地支援大資料集的互動分析,google推出了dremel和powerdrill。dremel被設計用來管理非常大量的大資料集(指資料集的數量和每資料集的規模都大),而powerdrill則設計用來分析少量的大資料集(指資料集的規模大,但資料集的數量不多)時提供更強大的分析效能。

4.為google instant提供服務的實時搜尋引擎儲存和分析架構。

5.pregel,這是谷歌更快捷的網路和圖演算法。

三、谷歌雲服務

四、谷歌大資料的智慧型應用服務

谷歌所提供的大資料分析智慧型主要是應用客戶的情緒分析、交易上風險、產品推薦、

訊息路由、診斷、客戶流失**、法律文案分類、電子郵件內容過濾、政治傾向**、物種鑑定等多個方面。據稱,大資料已經給google每天帶來2300萬美元的收入。例如,一些典型應用如下:

(1)基於map reduce,google的傳統應用包括資料儲存、資料分析、日誌分析、搜尋質量以及其他資料分析應用。

(3)基於搜尋統計演算法,google推出搜尋引擎的輸寫糾錯、統計型機器翻譯等服務。

(4)google的趨勢圖應用。通過使用者對於搜尋詞的關注度,很快的理解社會上的熱點是什麼。對廣告主來說,它的商業價值就是很快的知道現在使用者在關心什麼,他們應該在什麼地方投入乙個廣告。據此, google公司也開發了一些大資料產品,如「brand lift in adwords」、「active grp」等,以幫助廣告客戶分析和評估其廣告活動的效率。

谷歌的大資料平台架構仍在演進中,追去的目標是更大資料集、更快、更準確的分析和計算。這將進一步引領大資料技術發展的方向

將近十年前,google放出的兩篇**催生了hadoop。最近,google又有兩篇**放出,描述了他們用來處理大資料的利器。其中一篇提到的是dremel。前不久,他們在正在舉行的vldb

2012大會上發布了一篇**《processing a trillion cells

per mouse click》,其中提到了google內部使用的乙個工具——powerdrill,只需要點一次滑鼠,powerdrill就可以處理上萬億條資訊。**中說:相比提供類似資訊分析功能的傳統資料庫,該工具要快10倍到100倍。

google從2023年開始使用powerdrill,將其作為dremel的變通方案。google資料中心的頭頭之一urs hölzle在《連線》雜誌的一篇文章中說:dremel可以在3秒鐘內查詢乙個p的資料。powerdrill雖不能處理這麼多資料,可能應對的量也不小了,而且它的處理速度更快。**中的資料指出:powerdrill可以在30到40秒內處理7820億個單元的資料。google說,這比dremel的方式「高好幾個數量級」。

網易杭州研究院副總監汪源發布了一篇部落格,對powerdrill和dremel作出了分析和對比。他首先指出二者的相似之處:

powerdrill與dremel的類似之處在於都用了列存,都為sql介面。

接下來,他分析了二者的不同:

然後,他提到powerdrill最鮮明的特點:

乙個是已經提到的組合範圍分割槽,另乙個是空間效率非常高的記憶體資料結構。

首先,各列的資料使用基於字典的壓縮技術,並且是雙層字典。全域性字典編碼列中所有不同值,每個分割槽還有個小字典,對映分區內不同值的編碼到全域性編碼,這樣各分區內的值的編碼取值範圍比較小,從而可以用較少的位元來編碼乙個值。

在這個基本方法之上,還通過一下方式進一步優化空間效率:全域性字典用trie結構;屬性值zippy壓縮(熱點資料不壓縮,lru替換);reorder紀錄。這些優化通常能帶來2-10+倍的空間效率提公升。

對於使用記憶體做分析的做法,汪源認為:

powerdrill設計用來分析少量的核心資料集,一般應用場景下資料量並不大,因此通過記憶體架構來提高分析效率我覺得是個相當合理的選擇。

不過他對其組合範圍分割槽的方式有自己的看法:

mike olson是cloudera的ceo,他曾說:「如果你想知道未來的大規模、高效能資料處理基礎設施是什麼樣子,我的建議是去閱讀google目前剛剛放出的研究**。」

mapreduce和bigtable的**催生了大資料處理的事實標準hadoop,這讓我們不禁好奇:dremel和powerdrill又會催生什麼專案呢?

大資料技術

如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。資料採集傳輸主要技術 分為兩類,一類是離線批處理 另一類是實時資料採集和傳輸 離線批處理最有名的是sqoop 實時資料採集和傳輸最為常用的是flume和kafka sqoop 一款開源的離...

大資料技術

前言 學習了好久了,也沒有系統的整理過這些東西,感覺再這麼下去算是荒廢了,懶惰加上不思進取就這樣子過去大半年了,而且最近總是把技術聖地變成自己的宣洩的地方哈哈,隨便寫的啥都亂髮,打擾到各位了,在這裡給各位道歉了 經過乙個比賽感覺自己也學得不紮實,自從非正常退役acm以後,就距離乙個acmer越來越遠...

解密大資料的核心 資料探勘

大資料現在火到不行,究其原因是大資料的價值引得各大企業趨之若鶩。其實大資料之所以價值潛力無窮,其核心是資料探勘,挖掘找到人們所需要的有價值的東西。然而這個過程又是怎樣的呢?如何開始?如何通過資料探勘過程中找到我們需要的東西,這個過程又是什麼?總結的過程也是乙個學習的過程,通過有章節的整理對目前正在的...