spark-submit的時候如何引入外部jar包
spark shuffle的具體過程,你知道幾種shuffle方式
spark 如何防止記憶體溢位
cache和pesist的區別
怎麼處理資料傾斜
簡要描述spark分布式集群搭建的步驟
spark使用:
1)當前檔案a.text的格式為,請統計每個單詞出現的個數、計算第四列每個元素出現的個數
a,b,c,d
b,b,f,e
a,a,c,f
2)在(url,user)的鍵值對中,如
a.text
127.0.0.1 xiaozhang
127.0.0.1 xiaoli
127.0.0.2 wangwu
127.0.0.3 lisi
…..
b.text
127.0.0.4 lixiaolu
127.0.0.5 lisi
127.0.0.3 zhangsan
每個檔案至少有1000萬行,請用程式完成一下工作,
1)各個檔案的ip數
2)出現在b.text而沒有出現在a.text的ip
3)每個user出現的次數以及每個user對應的ip的個數
4)對應ip數最多的前k個user
C 和C語言面試問題(持續更新)
1.c c 記憶體有哪幾種型別?c中,記憶體分為5個區,堆,棧,程式 區,全域性 靜態儲存區和常量儲存區。此外,c 中有自由儲存區一說。全域性變數和static變數會初始化為零,而堆和棧上變數是隨機的不是確定的。2.c c 堆和棧的區別?堆存放動態分配的物件 程式執行時分配的物件,比如區域性變數,其...
Python 問題彙總 持續更新
2017 06 17 1.使用pycharm,寫入如下 的時候 import os os.system tasklist 會發現中文亂碼的情況,這個時候進行以下修改 2.print i love 中國 列印字串的時候,出現亂碼 解決方案如下 1 檔案儲存格式為utf 8 指定的是檔案編碼 2 在檔案...
C 各種面試問題彙總
害,還沒找到工作,太難了,只能繼續努力了,加油衝!1.c 拷貝建構函式為什麼只能引用傳遞,不能按值傳遞 因為按值傳遞的話,得先用拷貝建構函式給形參賦值,又按值傳遞,又呼叫拷貝建構函式,一直這樣無限遞迴,所以不能按值傳遞。2.x x 1 x 1 x 哪個效率最高 x x 1首先取右邊x的位址取值,加1...