1、hive抓取策略
2、explain 顯示執行計畫
3、設定本地執行模式
4、平行計算
5、嚴格模式
6、hive排序
7、hive join
自動的mapjion
盡可能使用相同的連線鍵**化為乙個mr)
大表join大表 (不一定有用)
8、map-side聚合
9、合併小檔案 檔案資料小,容易在檔案儲存端造成壓力,給hdfs造成壓力,影響效率
10、去重統計:資料量小的時候無所謂,資料量大的情況下,由於count distinct操作需要用乙個reduce task來完成,這乙個reduce需要處理的資料量太大,就會導致整個job很難完成,一般count distinct使用先group by再count的方式替換
11、控制hive中map以及reduce的數量
13、hive-jvm重用
工作中用到的一些Linux命令
1.檢視檔案時間戳命令 root cdntest69 tools stat check error.xml file check error.xml size 256 blocks 8 io block 4096 regular file device 801h 2049d inode 525575...
工作中用到的命令
svn checkout username password 點評 1 將檔案checkout到本地目錄 svn checkout path path是伺服器上的目錄 例如 svn checkout svn 簡寫 svn co 2 往版本庫中新增新的檔案 svn add file 例如 svn ad...
工作中用到的Linux
1.top命令檢視cpu使用率 備註 在自己機器上不斷提供cpu使用率以獲取health alert命令 for i in seq 1 cat proc cpuinfo grep physical id wc l do while true do true done done2.scp命令跨伺服器遠...