hive資料儲存的格式有文字格式(textfile)、二進位制序列化檔案(sequencefile)、行列式檔案(rcfile)、apache parquent 和 優化的行列式檔案(orcfile)
orcfile 和 parquent,高效的資料儲存和資料處理效能得以在實際的生產環境中大量運用。
同時 orcfile對於索引的處理進行了優化 bloom filter index 和 row group index 鏈結
orcfile和parquent的對比
1. 過濾掉髒資料
如果大key是無意義的髒資料,直接過濾掉。本場景中大key無實際意義,為非常髒資料,直接過濾掉。
2. 資料預處理
資料做一下預處理,盡量保證join的時候,同乙個key對應的記錄不要有太多。
3.兩表join的時候 如果有需要篩選條件,現在子查詢中將篩選條件篩選以後再做join操作
4.count(distinct id) 寫法修改
改為 select count(1) from (select id from table group by id) a
5. 建模過程中如果 c d 表產生的時候都需要 a b 的相同的結果集,可以將ab 的結果集作為乙個中間層,供下游使用
Hive優化整理
寫本文的目的是為了從本文開始,讓自己養成寫博文的習慣,也將知識一點點的沉澱下來,自己回頭看的時候方便,能為其他人提供一些幫助更好。同時也會整理一些面試題。1 兩表join,條件寫在的on後面和where後面什麼區別?1.left join,不管on後面跟什麼條件,左表的資料都會列出來,右表中關聯不上...
技能C 一版
pragma once cstring l2s long num cstring d2s double num void target play sound long uid,const tchar sound file name,double delay time 建立實體 long create...
問題 A 又一版 A B
題目描述 輸入兩個不超過整型定義的非負10進製整數a和b 231 1 輸出a b的m 1 m 10 進製數。輸入輸入格式 測試輸入包含若干測試用例。每個測試用例佔一行,給出m和a,b的值。當m為0時輸入結束。輸出輸出格式 每個測試用例的輸出佔一行,輸出a b的m進製數。樣例輸入 copy 2 4 5...