hive優化最後一版整理

hive資料儲存的格式有文字格式(textfile)、二進位制序列化檔案(sequencefile)、行列式檔案(rcfile)、apache parquent 和優化的行列式檔案(orcfile)

orcfile 和 parquent,高效的資料儲存和資料處理效能得以在實際的生產環境中大量運用。

同時 orcfile對於索引的處理進行了優化 bloom filter index 和 row group index 鏈結

orcfile和parquent的對比

1. 過濾掉髒資料

如果大key是無意義的髒資料，直接過濾掉。本場景中大key無實際意義，為非常髒資料，直接過濾掉。

2. 資料預處理

資料做一下預處理，盡量保證join的時候，同乙個key對應的記錄不要有太多。

3.兩表join的時候如果有需要篩選條件，現在子查詢中將篩選條件篩選以後再做join操作

4.count(distinct id) 寫法修改

改為 select count(1) from (select id from table group by id) a

5. 建模過程中如果 c d 表產生的時候都需要 a b 的相同的結果集，可以將ab 的結果集作為乙個中間層，供下游使用

Hive優化整理

寫本文的目的是為了從本文開始，讓自己養成寫博文的習慣，也將知識一點點的沉澱下來，自己回頭看的時候方便，能為其他人提供一些幫助更好。同時也會整理一些面試題。1 兩表join，條件寫在的on後面和where後面什麼區別？1.left join，不管on後面跟什麼條件，左表的資料都會列出來，右表中關聯不上...

技能C 一版

pragma once cstring l2s long num cstring d2s double num void target play sound long uid,const tchar sound file name,double delay time 建立實體 long create...

問題 A 又一版 A B

題目描述輸入兩個不超過整型定義的非負10進製整數a和b 231 1 輸出a b的m 1 m 10 進製數。輸入輸入格式測試輸入包含若干測試用例。每個測試用例佔一行，給出m和a，b的值。當m為0時輸入結束。輸出輸出格式每個測試用例的輸出佔一行，輸出a b的m進製數。樣例輸入 copy 2 4 5...

hive優化最後一版整理

Hive優化整理

技能C 一版

問題 A 又一版 A B

相關推薦