Hadoop會取代數倉嗎?看矽谷專家怎麼說

2021-09-23 09:04:26 字數 3406 閱讀 4639

一想資料管理世界中的那個偉大的存在–資料倉儲吧。在過去的二十年中,儘管其他的系統和軟體在許許多多的迭代、變革中演進,甚至完全被新模型所拋棄,資料倉儲這個老骨幹卻安然屹立。她可能會偷偷地給自己的面頰,皺紋整容,也可能會激起一些不那麼令人深刻的模仿,但是沒有什麼能長期的吸引她的注意力。

直到現在。自從hadoop出現在舞台上之後,一直有人嘀咕說,這個閃亮的新星正在為一些最好的資料管理角色提供服務–這些角色就是,在幾年前,資料倉儲已穩操勝券。

但是現在真的到了資料倉儲要退休的時候了嗎?hadoop甚至想要進入她的鞋子裡嗎?還有誰在後面等著呢?

讓我們仔細看看這些據報道的競爭對手的全部本領。

資料倉儲持久吸引力的背後是什麼?

簡單地說,資料倉儲意味著將不同**的資料聚合為乙個用於報告和分析的**儲存庫。它長期成為實際解決方案的原因如下:因為這些資料是被聚合的,在經歷抽取,轉換,載入過程後,協調成為「真理的唯一版本」,緩和矛盾,重構資料格式化的方式,從而適應預定的模式。

結果是乙個完整的、可靠的,一致的資料**,這些資料可用於商業智慧型軟體查詢。

hadoop究竟是什麼?

對於需要處理海量資料集的使用者來說,這是乙個開源的程式設計框架。使用分布式儲存系統,它給使用者一種儲存、清理和處理大量資料的方法。

為了使資料達到千兆兆位元組的傳輸速度,hadoop分布式檔案系統(hdfs)沿著成千上萬的硬體節點讀取資料。即使許多節點由於技術故障而停止工作,系統仍能保持正常執行。這意味著存在低風險的資料丟失–對於那些使用大量資料進行非常複雜的分析的企業來說,這是一種真正的恐懼。

難怪hadoop正在轉向乙個尋求可靠的方法來執行大資料處理任務的行業。

另外,它是開源的–這是乙個巨大的吸引力。它具有無限的可伸縮性和無限的可定製性。包含定製應用程式、查詢和方法的範圍是無限的。資料探勘的複雜性可以隨著資料的複雜性和資料的數量而增長。

它**比資料倉儲更出色?

大資料正變得越來越大,許多大型資料倉儲都試圖採取定製的多處理器裝置來應對不斷飆公升的儲存需求。但是除了最大的組織外,所有這些都需要付費。

與此同時,hadoop可以靈活地處理滾雪球般的資料。然後使用者可以將它與資料倉儲層或頂部構建的服務相結合,無論是像presto的sql軟體,或者用相似方式工作的hive,或者像hbase類的nosql。

但這並不意味著hadoop將取關係型資料庫或者資料倉儲。事實上,我們馬上就會看到,這很可能是最好的支援,而不是取代。

那麼他們是競爭對手嗎?

完全不是。簡單地說,他們沒有扮演相同的角色。

資料專家趨向於把hadoop看作現有資料倉儲架構的乙個補充,並且可以為他們節省大量現金。通過把資料塊遷移到hadoop,可以減少關係型資料庫的壓力,從而使資料倉儲平台更便宜,並且可以在不增加語速那的情況下進行擴充套件。

用這種方式,hadoop可以降低資料倉儲的總成本,而不是取代它的某些東西。

它如何使資料倉儲的效能更好?

資料倉儲的構建成本很高,執行成本和增長成本昂貴。隨著收集的資料量的增長,儲存需求和花費也會呈指數級增長。

此外,這些龐大的資料集合意味著使用者每次執行查詢的時候,不能進入資料倉儲的全部範圍–而且他們的硬體也無法處理這個問題。這意味著使用分析資料集來給業務中的各個部門訪問資料倉儲特定區域的資料。

它是乙個不完美的系統。不僅限制了使用者在資料上執行分析的範圍,也是乙個定時炸彈。

隨著越來越多的資料湧入倉庫,每個資料集都可能變得如此不堪重負,以致難以使用。你可以通過限制訪問來減輕硬體壓力,但是那意味著給各個部門越來越窄的資料分析選擇。對於嚴格的商業智慧型來說,這樣的做法並不夠好。

hadoop並沒有遭受這些挫折。進入門檻很低,而且對增量投資是開源的。它可以隨著時間的推移而建立起來,你可以不斷增大資料量而不需要花大量的成本來匹配。

對於那些剛剛進入資料行業的公司–沒有對大型機或者基於unix的資料倉儲的投資–這種可擴充套件的、增量式的框架是非常吸引人的。但是hadop是乙個框架,而不是乙個完美的解決方案。它在處理巨大資料集方面很出色,但是它從來沒有打算要替代資料倉儲。

那麼hadoop和資料倉儲是最終的bi夢想團隊嗎?

哇哦,請等一下。使用hadoop與資料倉儲處理了資料儲存問題。但是儲存資料只是商業智慧型的乙個要素。

廣義上說,乙個功能性的、可用的bi系統應該由五個部分組成:

1.在某個地方幾種儲存資料。2.劃分這些資料的工具,如:地理,操作或者其他業務需要的工具。3.為資料分析準備工具。4.幫助您快速處理此資料的etl資料引擎。5.顯示所有這些資料的前端(通常是某種儀錶盤)。

即使hadoop和資料倉儲在最好的情況協同工作,他們也只處理這些元件中的第乙個。現在,bi技術的創新,同時提供了所有的五個元件,很快將夢想團隊降級為二類組合。

誰,誰會為了搶風頭而出風頭?

正如我們看到的,資料倉儲和hadoop是乙個成功的雙重行為。但是,要執行來自多個源的快速、高效能的資料分析,您並不需要它們中的任何乙個。現在,我們正在見證一顆新星的崛起。

整體的「單棧」解決方案消除了關聯式資料庫的需要,直接鏈結源資料,無論來自何處,並在現場執行英語教學功能。最好的工作是建立乙個元資料(抽象)層,用於在任意數量的表中查詢資料,這種格式是以任意格式的任意**繪製的。

正確的方法是通過構建像柱狀資料庫和記憶體處理這樣的智慧型的、節省硬碟的方法來解決通常伴隨巨大資料集而來的問題。首先通過只載入正在用的資料簡化處理過程,而後確保將這些資料載入到計算機的主記憶體中,而不是占用ram。這意味著你可以獲得完全的、不受限制的訪問所有資料的許可權,而不需要像好萊塢山那樣大小的計算機來處理它。

乙個唱歌、跳舞的超級巨星

更勝一籌的是,使用乙個完整的bi系統消除了對非技術使用者可理解資料的額外軟體層的需求。

正如我們看到的,資料倉儲和hadoop的不足之處在於它們是嚴格的「後端」解決方案——它們只處理外層資料。

為了使您的前端使用者能夠訪問資料,您仍然需要引入和整合各種各樣的應用程式,這些應用程式允許業務團隊提取並視覺化他們需要的見解。

雖然hadoop是開源的,但它不是「免費的」。讓它做你想做的事情,並將它與你的資料倉儲整合,你的工具來處理和準備資料分析,以及前端的儀表板介面,要麼需要大量的資源投入,要麼需要引入第三方來管理它。另外,當然,你仍然需要投資它需要執行的硬體。

有了乙個像樣的單棧替代,您可以查詢源資料,使用etl資料引擎快速處理它,並在一步生成新的報和表指示板。現在這種創新挑戰了資料倉儲、hadoop或沒有hadoop的未來。

所以,是的,也許是時候讓這個(國際)國家寶藏退後一步,讓下一代資料技術接手。但並不是因為hadoop竊取了她的皇冠,而是因為單棧技術正在為bi提供冗餘儲存資料解決方案。

Google 會取代Facebook嗎?

答案是 不 但這不是因為,google 無法取得重大的成功。從某種意義來說,無論是服務 技術還是公司,它們從未殺死競爭對手或相互替代。一些公司未能跟隨客戶需求,不斷創新,這才是它們衰敗的原因。舉例來說,電視從未真正取代廣播電台,因為廣播電台有其專門的用途,擁有堅實的技術基礎。同樣的原因,網際網路也不...

HTML5是否會取代Flex

隨著網際網路的快速發展,在當今的web應用開發中,flex佔據的部分越來越大。例如大多數網頁遊戲,部分介面上是全flash的 等都是flex的傑作,其中的乙個共同點就是使用者的體驗效果非常豐富。儘管使用flash完全可以實現flex的效果,但是使用flex能讓程式設計師更方便地開發ria應用。其實我...

GPU真的會取代CPU的位置?

這句看起來非常大膽,甚至有些飛揚跋扈的宣言正式出自nvidia ceo黃仁勳。請注意,這段宣言在邏輯上分為兩層 首先第一層,是cpu的發展已經陷入瓶頸,摩爾定律已經失效,然後才會有第二層,gpu不知道要高到 去。首先針對第一層,我們以半導體的代表性行業intel為例,在進入14nm製程之後,確實在產...