微軟對 yahoo! 的收購持久戰可能讓很多人都新聞疲勞了。但今天看到的這個關於 yahoo! 的技術新聞還是值得看一下的:size matters: yahoo claims 2-petabyte database is world's biggest, busiest 。yahoo! 的 vp waqar hasan 在文中披露 yahoo!的資料倉儲當前容量為 2pb。用於分析每月5億的使用者訪問行為,每天處理 240 億次的事件,號稱世界上單個最大、最忙的資料庫。
盡 管有的資料倉儲容量要比雅虎的大。但那些 db 或是儲存非關係性資料,或是儲存的壓縮後的原始資料,不能進行即時分析,雅虎之前的也有數百 t 這樣的資料。眼下 yahoo!資料倉儲儲存的是結構化、可分析的資料。預計下一年可能膨脹到數十 pb 。ebay 號稱資料總量有 6pb ,不過根據一些訊息來看,單個最大的 db 只有 1.4 pb。
這麼大的資料庫並沒有採用傳統的 **p 架構構建,而是採用普通 pc 作集群(用了不到 1000 臺) 。很明顯這是 share nothing 而不是 share storage 的 db 集群。通過上述獨特的設計方式,能夠對此海量資料進行有效的分析,這是個不小的技術革新,也是與 google map reduce 完全不同的計算模式。
讓人感慨的是 關於世界上的超大資料庫 一文中羅列的資料,現在看起來已經並不驚人了。以前總說資訊**,這個時代剛剛來臨。
dba notes
Yahoo 的資料倉儲 世界上最大最忙
微軟對 yahoo 的收購持久戰可能讓很多人都新聞疲勞了。但今天看到的這個關於 yahoo!的技術新聞還是值得看一下的 size matters yahoo claims 2 petabyte database is world s biggest,busiest yahoo 的 vp waqar ...
Yahoo資料倉儲架構簡介
1.yahoo 資料倉儲的整體架構 yahoo資料倉儲在基礎架構上由hadoop集群和oracle集群組成,hadoop集群是乙個計算平台,完成所有etl資料處理過程 oracle集群只是乙個查詢環境。資料通過data highway從源系統載入進入資料倉儲的ods層,ods層資料保持與源系統資料結...
世界上最大的賭局?!!
她不得不離開我,尋找新的生活,我沒有不愛她,沒有對不起過她,她也愛我,可世界有很多事情不是自己能控制的,她選擇了她的父母,放棄了我.從她放棄我,離開我的那一刻起,她就開始了一場賭局,我的愛,我對她的疼愛,我對她的執著,我對她的好,我對她的包容,和可以給她一輩子的關懷,幸福生活,當了籌碼,她要賭的是,...