spark core面試篇03
1.spark使用parquet檔案儲存格式能帶來哪些好處?
如果說hdfs 是大資料時代分布式檔案系統首選標準,那麼parquet則是整個大資料時代檔案儲存格式實時首選標準
速度更快:從使用spark sql操作普通檔案csv和parquet檔案速度對比上看,絕大多數情況
會比使用csv等普通檔案速度提公升10倍左右,在一些普通檔案系統無法在spark上成功執行的情況
下,使用parquet很多時候可以成功執行
parquet的壓縮技術非常穩定出色,在spark sql中對壓縮技術的處理可能無法正常的完成工作
(例如會導致lost task,lost executor)但是此時如果使用parquet就可以正常的完成
極大的減少磁碟i/o,通常情況下能夠減少75%的儲存空間,由此可以極大的減少spark sql處理
資料的時候的資料輸入內容,尤其是在spark1.6x中有個下推過濾器在一些情況下可以極大的
減少磁碟的io和記憶體的占用,(下推過濾器)
spark 1.6x parquet方式極大的提公升了掃瞄的吞吐量,極大提高了資料的查詢速度spark1.6和spark1.5x相比而言,提公升了大約1倍的速度,在spark1.6x中,操作parquet時候cpu也進行了極大的優化,有效的降低了cpu
12.spark中task有幾種型別?
答:2種型別:1)result task型別,最後乙個task,2是shufflemaptask型別,除了最後乙個task都是
13.union操作是產生寬依賴還是窄依賴?
答:窄依賴
14.rangepartioner分割槽器特點?
答:rangepartioner盡量保證每個分割槽中資料量的均勻,而且分割槽與分割槽之間是有序的,乙個分割槽中的元素肯定都是比另乙個分區內的元素小或者大;但是分區內的元素是不能保證順序的。簡單的說就是將一定範圍內的數對映到某乙個分區內。rangepartitioner作用:將一定範圍內的數對映到某乙個分區內,在實現中,分界的演算法尤為重要。演算法對應的函式是rangebounds
15.什麼是二次排序,你是如何用spark實現二次排序的?(網際網路公司常面)
答:就是考慮2個維度的排序,key相同的情況下如何排序,參考博文:
16.如何使用spark解決topn問題?(網際網路公司常面)
答:常見的面試題,參考博文:
17.如何使用spark解決分組排序問題?(網際網路公司常面)
組織資料形式:
aa 11
bb 11
cc 34
aa 22
bb 67
cc 29
aa 36
bb 33
cc 30
aa 42
bb 44
cc 49
需求:1、對上述資料按key值進行分組
2、對分組後的值進行排序
3、擷取分組後值得top 3位以key-value形式返回結果
答案:如下
Spark面試術語總結
今天你比昨天更博學了麼,今天你比昨天更進步了麼,雨愛把時間荒廢在碌碌無為上,還不如踏踏實實學點東西,可能你進步很慢,只要你不放棄,一定可以的 送給正在努力的你 今天的學習 glossary the following table summarizes terms you ll see used to...
spark面試總結1
粗粒度模式 coarse grained mode 每個應用程式的執行環境由乙個dirver和若干個executor組成,其中,每個executor占用若干資源,內部可執行多個task 對應多少個 slot 應用程式的各個任務正式執行之前,需要將執行環境中的資源全部申請好,且執行過程中要一直占用這些...
面試總結 3
1.請列舉你能想到的unix訊號,並說明訊號用途 2.有乙個ip位址,192.168.0.1,請寫出其32位無符號整數形式 3.請寫出http頭,並符合以下要求 a 這是乙個post請求 b 目標 c post變數 username test pwd test2 intro hello world ...