1.什麼是shuffle?shuffle的流程
2.hadoop排程器?
3.什麼是etl?
4.hive的資料型別
5.分桶的理解
6.hive的四大器
7.hive的索引
8.hive元資料的三種儲存方式
9.hadoop內建的輸出檔案的格式
10.hive元資料預設儲存的位置
11.hive 的內建函式
12.hive的優化
13.如何理解分割槽
14.hive的儲存格式
15.如何實現動態分割槽
16.hive最大的優點
17.hive中的資料傾斜
18.排序
19.內部表和外部表的區別
20.job和tast的區別
21.二次排序
22.mr的優化
23.如何建立乙個udaf函式
24.hive和hadoop的關係
25.分割槽的意義
26.mr的應用場景
27.hive的架構
28.mr的流程
29.多檔案輸出類
30.left join 和right的區別
31.hive資料清洗出現的原因
32.hive的特點
33.分割槽的目的
34.hive的載入資料的方式
35.hive代替in查詢的方式
36.textfile和sequencefile的區別
37.靜態分割槽和動態分割槽的區別
38.order by
39.空在hive裡是如何儲存的
40.hive支援哪些資料操作
41.如何自定義儲存格式
42.hive的執行機制
43.hive的缺點
Hadoop(二)Hadoop集群搭建
準備好三颱centos系統,配置如下 主機名centos1 centos2 centos3 ipcentos1的ip centos2的ip centos3的ip centos7修改主機名命令 hostnamectl set hostname 配置三個centos的ip對映,修改 etc hosts,...
hadoop使用問題
前提 環境 ubuntu 安裝hadoop 已經有一段時間 啟動的時候提示 connection reset by peer 這個檢視日誌,裡面有說 ssh裡面某個檔案的許可權太大 這個ssh裡修改下就可以 eperm operation not permitted 這個之前以為是許可權問題,後來改...
Hadoop集群搭建之二(測試hadoop集群)
搭建好hadoop集群後,需要測試下集群看各節點是否工作正常。1.單集群hadoop測試 2.hdfs檔案系統操作手冊 驗證前,先關閉集群中各個節點的防火牆,否則會出現datanode執行一段時間後,自動關閉。使用下面的命令關閉防火牆 service iptables stopmaster.hado...