大資料公認最優秀的處理工具hadoop

2021-09-24 06:16:55 字數 1600 閱讀 9732

架構大資料解決方案的軟體工程師們都知道,業務分析有一項技術跨越了sql資料庫、nosql資料庫,非結構化資料、面向文件資料儲存及大型處理。如果你猜到了hadoop,那你回答正確。hadoop也是許多巨頭公司具有的乙個共性,如亞馬遜、雅虎、aol、netflix、ebay、微軟、谷歌、 twitter和facebook。ibm甚至是走在時常的前沿,促進hadoop進行企業分析。此開源模型無處不在,它在這個舞台上停留的五年,是乙個真的角色,我們不得不為此感到驚訝。

hadoop的未來

為了了解過去幾年發生了什麼,我們走訪了chuck lam,《hadoop在行動(hadoop in action)》一書的作者。chuck說hadoop還沒有停下來休息。「整個生態系確實是進化,而且改變了許多。現在甚至出現了官方1.0版本。更重要的是,mapreduce的基礎程式設計模型已經重新修訂,且做了不少的改變。」一般來說,這些改變都向著有利的方面發展的。開發方向已經使得這個框架易於部署在企業中,並解決一系列的問題,如對於風險規避公司是問題之首的安全問題。

好處越來越多,包括高水平的可擴充套件性。此框架中的分布式計算意味著新增越來越多的資料,而不必改變新增它的方式。沒有必要去改變格式,或打亂工作編輯的方式或決定哪乙個應用完成的此工作。你只是隨著工作的進行新增更的節點即可。你不必挑剔你儲存的資料型別或它**。無模式是此遊戲的名稱。該框架的平行計算能力還使商品伺服器儲存究竟的利用率更高。這意味著企業可以儲存,使用更多的資料。無論哪個節點出現故障,它都沒事。即使系統出現故障,也不會丟失資料,降低效能。

助力hadoop技術

1、hive (資料倉儲)

2、mahout (機器學習和資料探勘)

3、hbase (大型**的結構化儲存)

4、cassandra (多主機資料庫)

當然,此型別的解決方案並不一直都是美好好。lam說主要的陷阱就是處理做出的假設。換言之,錯不在我們的系統而在我們自己。「新技術並不是所有問題的靈丹妙藥。正如nosql這類的一樣簡單,但你必須要更深一層地弄清楚你要解決的問題。」這可能意味著慎重地檢視你的演算法,而不是只是把你的員工扔給 mapreduce,然後期望hadoop自動擴充套件。使用模式的資料會影響你的擴充套件模式——尤其是當使用不平均是。然後線性擴充套件可能就不起作用了。再一次,這個並不是hadoop本身的問題。lam相信有工具在手的企業已經足夠成熟了。這只是確保it管理員熟悉這些工具,確保使用hadoop的軟體架構師知道怎樣更有效地使用用這項技術。

作者強力推薦閱讀文章:

大資料工程師必須掌握開源工具彙總

大資料高階工程師教你如何讀懂大資料核心技術

頂級大資料工程師需要掌握的技能

大資料、機器學習和人工智慧未來發展的8個因素

大資料處理工具

一 大資料的4v特性 1 volume 體量巨大 2 variety 資料型別繁多 3 value 價值密度低 4 velocity 處理速度快 二 大資料處理需要解決的問題 1 儲存 2 計算 3 挖掘 4 展現 三 大資料處理涉及的6個方面 1 資料入口 資料傳輸和同步一般採用基於時間線的實時同...

大資料的處理

大資料時代,大家都在從資料中淘金。龐大的資料量隱藏著一些重要的資訊,這些需要被挖掘,來輔助企業制定決策。龐大的資料量如何轉化為有價值的資訊呢?參考hadoop的設計,使用分布式檔案系統hdfs來儲存超大規模的資料集,使用分布式計算框架來處理資料。其中hdfs的設計 是一次寫入,多次讀取。hdfs是如...

大資料時代的資料特點與大資料時代處理資料理念的改變

1 大資料時代的資料特點 4v 1.1 規模性 volume 即大資料具有相當的規模,其資料量非常巨大。資料的數量級別可劃分為b kb mb gb tb pb eb zb 等,而資料的數量級別為pb 級別的才能稱得上是大資料。1.2 多樣性 variety 即大資料的資料型別呈多樣性。資料型別繁多,...