spark實驗總結

2021-10-10 16:54:23 字數 1093 閱讀 2351

4,5實驗的問題在於spark儲存和讀取json的時候列名容易不是本來需要的欄位名而是c1,c2這樣的列名,解決辦法是不要用建議讀取方法而要指定讀取表頭。

不用spark.read_csv()而是

spark.read.format(「json」).option(「header」,「true」).load(「hdfs://node1:9000/online_retail_true.json」)

注意只有rdd裡面2元組這種型別的才能用reducebykey()

flatmap的扁平化操作和map不同有時會導致不同的型別結果,這一點有待提高,還是不太懂。

new jiebasegmenter().sentenceprocess(x._2+x.3).toarray()

.map(x => (x.tostring, 1)).groupby(._1).map(t=>).tolist.sortby(._2)

關於分詞時的詳細操作

new jiebasegmenter().sentenceprocess(x._2+x.3).toarray()

分詞 結果是list(array)格式.map(x => (x.tostring, 1))將單詞變為(單詞,1)的形式,.groupby(._1)按單詞進行分組.map(t=>)將資料變成(單詞,單詞在每篇文章中的出現次數)

.tolist.sortby(._2)轉為list按出現次數排序

val objfile=sc.objectfile(string,int)

讀取object檔案(只能在spark中用rdd開啟的)

致此 所有spark實驗做完,以盡力。旅途完成。

關於map和flatmap的區別

可以認為flatmap是在做map後進行扁平化

map傳入10行傳出也是10行

flatmap則不是 一般大於10行

flatmap單純用於一對一轉換則和map相同

如果處理後是個list或者array型別,那麼就會將這個list或者array的每個元素變成1行,也就是將這個list或者array合在一起

Spark 寒假 實驗2

printf 級數的前n項和為 f n sum 測試截圖 圓形 class circle point point,r double extends shape point point with drawable 重寫,列印 override def draw unit 重寫,移動 override ...

Spark 模型總結

註明 以及相關資料均來自scalable machine learning from berkelyx,只是個人總結使用,侵權即刪 mr的價值體現在對大資料集的分布式處理上。如下面的圖例 來自scalable machine learning from berkelyx 將大規模的文件先分開成不同的...

spark 課程總結

1.乙個階段的若干task組成乙個taskset,乙個excutor可以併發執行的多少個task由executor cores決定。2.除非用checkpoint,否則各階段的rdd的資料都儲存到記憶體裡不釋放。spark sql需要的記憶體如果只有乙個階段的shuffle,如group by,各e...