hive中提供了類似於sql語言的查詢語言——hiveql,可以通過 hiveql語句快速實現簡單的 mapreduce統計, hive 自身可以將 hiveql 語句快速轉換成 mapreduce 任務進行執行,而不必開發專門的 mapreduce 應用程式,因而十分適合資料倉儲的統計分析。 通過乙個簡單的詞頻統計來初步認識hive
1.本地建立兩個文字檔案
cd /usr/local/hadoop/input
echo 「hello world」> file1.txt
echo 「hello hadoop」> file2.txt
2.將檔案上傳至hdfs中(因為hive的的操作是基於hdfs檔案系統)
./bin/hdfs dfs -mkdir -p /wordcount/input
./bin/hdfs dfs -put /usr/local/hadoop/input/*.txt /wordcount/input
3.在hive下通過如下hiveql語句實現統計功能
create table wordcount(line string); //表有乙個string型別的字段
load data inpath '/wordcount/input' overwrite into table wordcount ; //把資料匯入到wordcount表
create table word_count as
select word,count(1) as count from
(select explode(split(line,' ')) as word from wordcount) w //通過explode函式把wordcount表變成欄位為word的w表
group by word
order by word;
4.查詢結果
任務03 Hive詞頻統計
在 root目錄下新建word.txt 輸入幾行單詞,單詞之間以空格隔開 hello hadoop hello hdfs hello mapreduce hello hive hello hbase hello pig 對於這個text表,我們如何將其中的每行的單詞進行統計呢?由於一行文字有多個單詞...
Hive 操作與應用 詞頻統計
一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop,啟動hive 3.建立資料庫,建立文字表同時對映本地檔案的資料到文字表中 4.hql語句進行詞頻統計交將結果儲存到結果表中。5.儲存並且檢視統計結果 二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的...
Hive 操作與應用 詞頻統計
一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop,啟動hive 3.建立資料庫,建立文字表 4.對映本地檔案的資料到文字表中 5.hql語句進行詞頻統計交將結果儲存到結果表中。6.檢視統計結果 二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的文字檔...