資料控使用Hadoop的三種最常用方式

2021-09-22 21:33:33 字數 2033 閱讀 8321

hadoop使用的一般模式

hadoop最初的構想是為像yahoo、google、facebook等這樣的公司以非常低的成本來解決大量資料的儲存問題。現在,它正被越來越多地引入企業環境中處理新不同資料型別。機器生成的資料、感測器資料、社交資料、網路日誌等資料型別呈指數級增長,而且這些資料也常常(但不總是)是非結構化。正是由於這種型別的資料將人機對話從「資料分析」帶到大資料分析:因為挖掘這些資料可以得到商業優勢。

分析應用程式以各種形式流行起來,最重要的是可以定向解決乙個垂直行業的需要。乍一看,他們彼此似乎在行業和垂直上沒有關係,但是實際上,當在基礎設施層面觀察時,會出現一些非常清晰的模式,也就是以下3種模式:

pattern 1:資料精煉廠

使用hadoop的「資料精煉廠」模式使組織能夠將這些新資料來源納入他們常用bi和分析應用程式。例如,我可能有乙個應用程式,它能夠在erp和crm系統中檢視客戶建立在上面的資料。但是如何才能從他們的web session(基於我們**)中發現他們的興趣所在?「資料精煉廠」,這個使用模式正是顧客期望的。

這裡的關鍵概念是hadoop是被用來提取大量資料以便更容易管理。然後生成的資料被載入到現有資料系統,這些資料可以使用傳統的工具訪問,但是別忘了,這些操作都是建立在更豐富的資料集上。從某些方面來說,這是最簡單的用例,因為無需對傳統途徑進行大的修改,企業就可以清晰的從hadoop上獲益。無論垂直與否,精煉廠概念仍然適用。在金融服務領域,我們看到組織提煉交易資料以便更好地了解市場,分析和從複雜的組合中尋找價值。能源公司使用大資料來分析不同地區的消費水平以便更好地**生產水平。零售企業(任何面向消費者組織)經常使用精煉廠來洞察網路人氣。電信公司使用精煉廠呼叫**記錄來提取有用資訊細節以便優化計費方式。最後,在昂貴的,任務關鍵的垂直裝置上,我們常常發現hadoop被用來**分析和主動的故障識別。在通訊技術中,這可能是乙個網路的基站。特許經營餐廳中可以用來監控冷藏庫的資料。

pattern 2: 用apache hadoop來探索資料

第二個最常見的用例我們稱之為「資料探索」。在這種情況下,組織在hadoop上獲取和儲存大量的新資料,然後直接探索這些資料。因此不是使用hadoop作為暫存區域進行處理然後將資料轉移到企業資料倉儲(就像使用精煉廠用例一樣),資料是儲存在hadoop上然後直接探索。

資料探索用例通常是在企業開始可以探索以前被丟棄的資料(如網路日誌,社交**資料等等)並構建全新的分析應用程式然後直接使用這些資料。幾乎每乙個垂直系統都可以享受到探索用例的優越性。在金融服務領域,我們可以用探索用例來執行取證或識別欺詐。職業體育團隊將利用資料科學來分析交易和年度草案,就像我們在電影《moneyball》看到的。總之資料科學和探索可以用來發現新的商業機會或新的見解,這在hadoop之前是不可能實現的。

pattern 3: 挖掘應用程式

第三個也是最後乙個用例是「挖掘應用程式」。在這種情況下,儲存在hadoop中的資料決定了應用程式的用途。例如,通過挖掘儲存的所有網路會話資料,當使用者重返**時,我們可以為他們定製個性體驗。通過挖掘hadoop中儲存的這些資料,我們可以從會話歷史找到很多有用的價值。比如通過使用者的歷史記錄來提供乙個及時反饋。

這個用例是世界上許多大型**如yahoo、facebook等業務的基礎。通過定製的使用者體驗,他們可以有效與他們的競爭對手區分。這是雅虎hadoop的第二個用例,就如當初它意識到hadoop能夠幫助改善廣告位置一樣。這個概念轉變了大型的**,同時也正在使傳統的企業改善銷售,而一些小組織甚至也使用這些概念在零售網點實現動態定價。

正如你所預料的那樣,隨著組織熟悉在hadoop上提煉和探索資料,最後的這種最典型的用例正在被普遍採用或接受。但與此同時,這也暗示了今後hadoop能做什麼,並且隨著時間的推移和發展,傳統的資料庫應用程式將逐漸被hadoop應用程式取代。

當然任何涉及到新平台技術,在進入it企業環境時都有一定的複雜性,hadoop也不例外。無論你是使用hadoop來改進或是探索,還是豐富你的資料,與現有it基礎架構的相容將是關鍵。這就是為什麼目前hadoop生態系統和能整合不同**商之間解決方案得以顯著增長。hadoop有潛力在企業資料領域產生深遠影響,通過理解常見的使用模式,您將可以極大地減少其複雜性。

hadoop三種排程型別

先來先服務 fifo hadoop中預設的排程器fifo,它先按照作業的優先順序高低,再按照到達時間的先後選擇被執行的作業。fifo比較簡單,hadoop中只有乙個作業佇列,被提交的作業按照先後順序在作業佇列中排隊,新來的作業插入到隊尾。乙個作業執行完後,總是從隊首取下乙個作業執行。這種排程策略的優...

資料控中Hadoop的使用方式

隨著技術發展hadoop 技術現在已經被越來越多的企業用來處理大資料,但是在apache hadoop 2.0正式發布後很多人會好奇hadoop能否適合當下資料庫及資料倉儲的使用方式呢?現在我們去看看資料控中hadoop的使用方式。apache hadoop 2.0的正式發布,開啟了史無前例的資料儲...

Hadoop啟動停止的三種方式

1 分別啟動hdfs和mapreduce,命令如下 啟動 start dfs.sh start mapred.sh 停止 stop mapred.sh stop dfs.sh 2 全部啟動或停止 啟動 start all.sh 啟動順序 namenode datanode secondaryname...