最近在帶團隊搞hadoop這個東西,首先自然要從搭建平台開始,說實話當初自己搞得時候光光這個平台就搞了半天,也確實是個麻煩的事情,從剛開始的只會按照教程搭建到現在的已經可以熟練的搭建乙個平台,說實話,沒有把這玩意搭個十幾二十遍,沒有把其中的每乙個步驟都搞清楚,沒有深入研究過hadoop的執行機制,還真玩不轉。中間團隊搭建的時候真的是各種搭建各種問題,下面就先總結以下部分。
一.首先搭建hadoop我分為這麼幾個步驟:(所有問題都以hadoop0.20.2版本為例)
1.安裝linux環境
2.建立hadoop使用者組和hadoop使用者(這步也可以省略,當然是為了以後跑集群方便)
3.安裝jdk
4.安裝ssh服務
5.安裝hadoop
其中,我認為容易卡住的幾個部分是第一,第三,就是安裝linux和安裝jdk的時候,首先我們為了以後跑集群比較方便,就用的是雙系統裝ubuntu,當初裝這個雙系統搞得問題百出。 1.ubuntu有個最簡單的wubi安裝,就是像安裝軟體一樣一鍵安裝,一鍵解除安裝,但是這種方法經團隊驗證存在眾多缺陷,經常宕機,只適合體驗不適合開發更不適合跑集群,所以還是建議大家安裝真正的雙系統。
2.安裝雙系統的方法有很多,我就不一一介紹了,而且也介紹不完畢竟不是專門研究這個的,我們集體用的是window7下的硬碟安裝, 這裡是我們用的安裝教程。如果只是用來開發的話我建議還是只要虛擬機器的好,畢竟不會出那麼多問題而且操作簡單,記憶體2g以下的還是直接用虛擬機器吧雙系統跑不動的。
3.安裝好之後大家幾個常識要注意下,第一就是使用者組名,使用者名稱,主機名的區別,使用者組的是自己新增的,這裡新增hadoop使用者組是為了以後跑集群更好的區分,使用者名稱就像root使用者一樣是可以設定許可權等的使用者,乙個使用者組可以有許多個使用者。主機名是跑集群的時候用的,主機名和ip位址是對應的,不清楚自己ip位址的可以用ifconfig指令來檢視自己的ip位址。
4.很多人對ubuntu的依賴關係不明白什麼意思,這麼說吧
典型的windows軟體a,其需要輔助軟體b才能執行,所以安裝包就自帶b。如果n個軟體需要b,那麼你的電腦可能就有n個b軟體。典型的linux軟體a,其需要輔助軟體b,它不自帶,而是公用系統已有的(如果沒有就要安裝)。如果n個軟體需要b,那麼只需要乙個就夠了
,所以才要包管理來為你自動解決這些關係
Mac搭建hadoop平台
1.一直想在虛擬機器下的ubuntu搭建hadoop平台,前段時間全部搞定,最近掛掉了,然後平台搭建出現問題啦。卡了幾天,然後決定拋棄虛擬機器,直接在mac搭建。跟虛擬機器一樣,需要安裝ssh。此文不做介紹。直接介紹hadoop平台的搭建 1 進入 users yangting hadoop 2.9...
CentOS下搭建DNS詳細版
以前搭建的dns都是一些4.0版本用的老東東,今天給大家發個比較新的centos5.3版本下搭建dns 配置檔案大致和紅帽5.3一樣 試驗環境vm 虛擬機器5.5 centos5.3linux 作業系統 需要使用到的軟體包如下 如果不確定系統是否已安裝可用此rpm qa grep bind 命令進行...
基於Hadoop的資料分析平台搭建
企業發展到一定規模都會搭建單獨的bi平台來做資料分析,即olap 聯機分析處理 一般都是基於資料庫技術來構建,基本都是單機產品。除了業務資料的相關分析外,網際網路企業還會對使用者行為進行分析,進一步挖掘潛在價值,這時資料就會膨脹得很厲害,一天的資料量可能會成千萬或上億,對基於資料庫的傳統資料分析平台...