@[資料倉儲面試問題彙總
1.用hive實現交集、並集、差集
交集 用inner join 就可以實現
並集 union ,順便說一下union all 和union 的區別,union 會去除重複項因此要慢一點,而union all 不會
差集 left join on a.id=b.id where b.id is null
2.hive 和 spark的區別
這個問題也就是mr和spark的區別
2.1spark把運算的中間資料存放在記憶體,迭代計算效率更高;mapreduce的中間結果需要落地,需要儲存到磁碟,這樣必然會有磁碟io操做,影響效能
2.2spark容錯性高,它通過彈性分布式資料集rdd來實現高效容錯,rdd是一組分布式的儲存在節點記憶體中的唯讀性質的資料集,這些集合是彈性的,某一部分丟失或者出錯,可以通過整個資料集的計算流程的血緣關係來實現重建
2.3 mr 只是hadoop框架裡的乙個計算框架,而spark是乙個生態圈,有spark sql ,sparkstreaming,圖計算等,他們連個使用的場景也不大同,mr由於設計簡單,執行穩定等特點更適合大資料量的離線處理
3.hive是如何轉化成mr的
參考部落格
時隔一年後,再出去面試,問的比較多的就是專案問題了,比如資料如何更新啊之類的當然有的公司也要求做面試題,有時候也會面臨面試官臨時給你出題讓你現場寫
4.表t如下用一條sql寫出每個型別的數量佔總數量的佔比
type
numa10b
20c30b
5
select
type ,new_num,new_num/sum(new_num)over(
)from (
select type,sum(num)as new_num from t
group by type
) t1
5.如圖 如何用sql實現從左邊到右邊的實現
從圖中可以看出是奇數行和偶數行做了互換,可以通過case when 取餘來互換,當然id ±1可以通過 lag() 和lead()兩個函式來實現
6. 限制條件寫在 on 上和 where 上的區別
7. hive join 的幾種方式
8. 還有被問到hive sql的優化,說了通常的優化策略後,面試管說這些都是工作經驗所得,有沒有更高階的,有沒有看過執行計畫根據執行計畫來優化
最後祝君好運!
資料倉儲工具hive面試題集錦
進入date時代,大資料技術成為網際網路發展的核心要素之一。與此同時大資料開發工程師的薪資也成為行業內高薪的代表。想從事大資料開發需要掌握多種核心技術 hadoop hive storm spark scala等等。而且這些技術知識點已經成為大資料工程師進入職場時面試中必備的考點。這裡黑馬程式設計師...
hive 資料倉儲面試題目集錦
內部表和外部表的區別 未被external修飾的是內部表 managed table 被external修飾的為外部表 external table 區別 內部表資料由hive自身管理,外部表資料由hdfs管理 內部表資料儲存的位置是hive.metastore.warehouse.dir 預設 u...
資料倉儲專案管理面試題整理(二)
專案需求問題整理 1 資料倉儲專案已經開發了 6個月的時間,在專案的開發過程中,資料倉儲團隊發現業務源系統正在被重寫,業務系統在不斷的變化,乙個新的系統開發出來預計只有 8個月的壽命。資料倉儲團隊應該如何應付這種情況?2 源系統和資料倉儲系統同期建設。但是源系統在不斷的變化中,而且源系統的開發團隊沒...