Hadoop分布式計算 克服大資料挑戰的曙光

2021-06-25 14:59:32 字數 1401 閱讀 9335

近來大資料的議題竄起,而分布式計算是大資料的關鍵技術。當分布式計算發展出巨量資料平台,對企業而言可以不再依賴**高昂的大型專屬裝置,而可以透過自建大量伺服器群集來解決。

大資料大概是繼雲端運算之後,最熱門的科技名詞了。一些科技大廠不約而同,紛紛打出大資料口號,情況就像當年的雲端運算熱潮一樣。這到底是怎麼回事?

大資料照字面翻譯,就是「大資料」,而這個「大」,最起碼包含3種意思:一群大量的資料、一筆很大的資料、乙個很大的資料庫。所以就中文譯名來看,不論是翻成「大資料」或「巨量資料」,其實都只能點出大資料的部分特性。然而,不管是大資料或是巨量資料,都指向乙個共同的趨勢,就是數字資料增長的速度越來越快,而之所以能構成大資料這個新議題,就在於資料量之大已異於往常,使得既有的技術難以處理。

以往只有少數的產業會面臨巨量資料處理、分析的需求,例如氣象、基因、科學**,或是金融交易詐欺分析等等,但隨著科技應用的改變,有更多的產業也面臨巨量資料分析的挑戰。例如搜尋引擎業者要索引全球的網頁,就是乙個艱鉅的任務;電子商務業者要掌握顧客消費行為,所要分析的資料也越來越多。

去年我們的記者在寫大資料的報導時,採訪了ebay的使用經驗,然而我有眼不識泰山,看到稿件上寫著ebay的資料庫每天增加50tb,還一度懷疑是不是把gb誤寫成tb,或是記者粗心把5tb多加了個零,結果真的是50tb。因為ebay每天最少都有數百萬次的商品查詢,資料庫每日增加1.5兆筆記錄,而資料庫的總容量則已超過9pb。所以,不僅每天新增的資料量龐大,連資料庫也是超級龐大,而要從中分析顧客的瀏覽、消費行為,就是一件困難的事情。

其他像是大家熟悉的facebook社群**,每天都有數億使用者留下龐大的資料,甚至其中有很大的比例是、影片等傳統資料庫系統較不擅長的非結構化資料。這不僅挑戰社群**業者如何管理,對於想利用社群**來掌握消費者動向的企業而言,所面臨的挑戰也是前所未有的。

其實台灣的製造業也面臨相同的挑戰,例如隨著晶圓的製程越來越精細,要掌握更精細的製程分析資料以確保良率,就必須分析比過去還要多很多的資料。那麼如何有能力分析巨量資料,以及在可接受的時間內完成資料分析,就是個關鍵了。為此,像台積電這樣的公司就早早布局大資料的關鍵技術──hadoop。在台積電起碼有2個人擁有目前實屬罕見的hadoop證照,而全台灣擁有這張證照的加起來不超過20個人。

未來會有更多的產業要面臨龐大資料量的挑戰,而目前走在前頭的企業,都不約而同的採用分布式計算這樣的技術來克服難題。

hadoop是基於google搜尋引擎的分布式計算技術,google的哲學是螞蟻雄兵精神,利用大量平價的伺服器,搭配平行運算架構,以最符合經濟效益的方式創造龐大的運算量。當hadoop以此技術發展出巨量資料平台,對企業而言無疑是一道克服巨量資料挑戰的曙光,因為企業可以不再依賴**高昂的大型專屬裝置,而可以透過自建大量伺服器群集來解決。

最近,分布式計算終於發表1.0正式版,就像是只要給我乙個支點,就能撐起地球,分布式計算就是撐起大資料的那個支點。

Hadoop的分布式計算 MapReduce

什麼是mapreduce?你想數出一摞牌中有多少張黑桃。直觀方式是一張一張檢查並且數出有多少張是黑桃。mapreduce方法則是 1.給在座的所有玩家中分配這摞牌 2.讓每個玩家數自己手中的牌有幾張是黑桃,然後把這個數目匯報給你 3.你把所有玩家告訴你的數字加起來,得到最後的結論 1 mapredu...

hadoop分布式安裝

工欲善其事,必先利其器。在資料橫行的時代,我們的大神hadoop 出來了,作為分布式處理資料 不但快,而且一般用配置不高的電腦業可以做集群。那麼,現在就開始安裝我們的hadoop 進入hadoop之旅 檔案,這裡就去 apache 的命令進行解壓 tar zxvf hadoop x.tar.gz 好...

hadoop分布式快取

概念 使用distributedcache方法 1.在main方法中載入共享檔案的hdfs路徑,路徑可以是目錄也可以是檔案。可以在路徑中末位追加 別名,在map階段可以使用該別名 string cache hdfs cache cache myfile myfile是別名job.addcachefi...