Hadoop(二)答辯題問題

2021-08-17 02:35:34 字數 884 閱讀 4008

1.什麼是shuffle?shuffle的流程

2.hadoop排程器?

3.什麼是etl?

4.hive的資料型別

5.分桶的理解

6.hive的四大器

7.hive的索引

8.hive元資料的三種儲存方式

9.hadoop內建的輸出檔案的格式

10.hive元資料預設儲存的位置

11.hive 的內建函式

12.hive的優化

13.如何理解分割槽

14.hive的儲存格式

15.如何實現動態分割槽

16.hive最大的優點

17.hive中的資料傾斜

18.排序

19.內部表和外部表的區別

20.job和tast的區別

21.二次排序

22.mr的優化

23.如何建立乙個udaf函式

24.hive和hadoop的關係

25.分割槽的意義

26.mr的應用場景

27.hive的架構

28.mr的流程

29.多檔案輸出類

30.left join 和right的區別

31.hive資料清洗出現的原因

32.hive的特點

33.分割槽的目的

34.hive的載入資料的方式

35.hive代替in查詢的方式

36.textfile和sequencefile的區別

37.靜態分割槽和動態分割槽的區別

38.order by

39.空在hive裡是如何儲存的

40.hive支援哪些資料操作

41.如何自定義儲存格式

42.hive的執行機制

43.hive的缺點

Hadoop(二)Hadoop集群搭建

準備好三颱centos系統,配置如下 主機名centos1 centos2 centos3 ipcentos1的ip centos2的ip centos3的ip centos7修改主機名命令 hostnamectl set hostname 配置三個centos的ip對映,修改 etc hosts,...

hadoop使用問題

前提 環境 ubuntu 安裝hadoop 已經有一段時間 啟動的時候提示 connection reset by peer 這個檢視日誌,裡面有說 ssh裡面某個檔案的許可權太大 這個ssh裡修改下就可以 eperm operation not permitted 這個之前以為是許可權問題,後來改...

Hadoop集群搭建之二(測試hadoop集群)

搭建好hadoop集群後,需要測試下集群看各節點是否工作正常。1.單集群hadoop測試 2.hdfs檔案系統操作手冊 驗證前,先關閉集群中各個節點的防火牆,否則會出現datanode執行一段時間後,自動關閉。使用下面的命令關閉防火牆 service iptables stopmaster.hado...