pig是yahoo捐獻給apache的乙個專案 ,它是sql-like語言,是在 mapreduce上構建的一種高階查詢語言,把一些運算編譯 進mapreduce模型的map和reduce 中,並且使用者可以定義自己的功能。這是yahoo開發的又乙個轉殖google的專案:sawzall。
pig有兩種模式:
一種是local mode,也就是本地模式,這種模式下pig執行在乙個jvm裡,訪問的是本地的檔案 系統,只適合於小規模資料 集,一般是用來體驗pig。而且,它並沒有用到 hadoop的local runner,pig把查詢轉換為物理的plan,然後自己去執行。
在終端下輸入
% pig -x local
就可以進入local模式了。
還有一種就是hadoop模式了,這種模式下,pig才真正的把查詢轉換為 相應的mapreduce jobs,並提交到hadoop集群去執行,集群可以是真實的分布式 也可以是偽分布式。要想pig能認識 hadoop,你要告訴它hadoop的版本以及一些關鍵daemon的資訊(也就是namenode和jobtracker的address和 port)。比如,下面這個可以允許pig連線到任何hadoop0.20.*上:
/************************************/
% export pig_hadoop_version=20
接下來,你還要指明 集群的namenode和jobtracker的所在。有兩種方法,一種就是把你hadoop的conf位址新增到pig的classpath上:
% export pig_classpath=$hadoop_install/conf/
/*************************************/
還有一種就是在pig目錄的conf資料夾(可能需要自己建立)裡建立乙個pig.properties檔案,然 後在裡面新增集群的namenode和jobtracker的資訊:
fs.default.name=hdfs ://localhost/ conf/core-site.xml
map red.job .tracker=localhost:8021 conf/mapred-site.xml
搞定後,在終端執行下面的命令:
% pig
你就會看到下面的資訊:
2009-03-29 21:22:20,489 [main] info org.apache.pig.backend.hadoop.executionengine.
hexecutionengine – connecting to hadoop file system at: hdfs://localhost/
2009-03-29 21:22:20,760 [main] info org.apache.pig.backend.hadoop.executionengine.
hexecutionengine – connecting to map-reduce job tracker at: localhost:8021
grunt>
如你所見,pig 報告已經連上了hadoop的namenode和jobtracker,是不是也非常的簡單?
到此,pig的安裝和配置講解完畢,是不是很easy,那還等 什麼,趕緊去試試,玩玩~
Pig安裝配置
1.安裝好hadoop2.7.3 2.解壓 tar zxvf pig 0.17.0.tar.gz c 3.建立軟鏈結 cd ln s pig 0.17.0 pig 4.設定環境變數 nano bashrc在檔案末尾新增如下語句 export pig home pig export path pig ...
Pig 安裝總結學習
url size medium color red b 2.配置環境 b color size pig工作模式 本地模式 只需要配置path環境變數 bin即可,適用於測試 mapreduce模式 需要新增環境變數pig classpath conf 指向hadoop的conf目錄,我的是hadoo...
MySQL的安裝與配置教程
1.解壓,複製到指定目錄。新建data檔案。新增環境變數 2.新建my.ini檔案 設定3306埠 port 3306 設定mysql的安裝目錄 basedir d mysql mysql 8.0.20 winx64 設定mysql資料庫的資料的存放目錄 datadir d mysql data 允...