collect:把rdd中所有元素返回到乙個陣列,返回到driver端的memory中。
如非要檢視rdd中的資料:取出部分資料,或把rdd輸出到檔案系統。
foreach:
rdd.foreach(println)
rdd.foreachpartition(partition => partition.map(println)) //沒有輸出,輸出在每個executor。
思考:sortby是全域性排序嗎?是。
rdd. sortby(_._2,false). foreach(println) //雖然sortby是全域性排序,但由於不止乙個分割槽,foreach輸出的時候分割槽的先後順序隨機,又把全域性排序後的資料打亂了。
rdd.count() //元素的個數
rdd.reduce(_+_) //兩兩操作
rdd.first() //底層呼叫的是take方法
rdd.take(2) //返回頭兩個元素的陣列
rdd.top(2) //底層呼叫的是takeordered方法。
top是從大到小排序取值,takeordered是從小到大排序取值。
rdd.zipwithindex().countbykey() //元素和index構成乙個個元組,index在後。countbykey是action運算元,統計key的次數
rdd.zipwithindex().collectasmap() //返回的是元素和index的map對。
官網位址:
注意:
Spark core詳解系列四
要求 資料如下 a,1,3a,2,4b,1,1根據資料第一列統計得到如下結果 a,3,7b,1,1用rdd實現。實現功能核心 如下 val input sc.parallelize list list a 1 3 list a 2 4 list b 1 1 input.map x reducebyk...
Solrj Java API呼叫詳解系列(二)
上篇文章提到了環境搭建 與solr建立連線以及簡單的查詢如何實現。本文將繼續介紹一些複雜的查詢api如何使用。一 或者關係的查詢 1 solrquery.add string,string val 介面 query.add name newstring name是solr的schema.xml檔案中...
sip協議詳解 系列(二)
sip的核心請求訊息 invite ack options bye cancel 和 register invite invite可以在郵件正文中包含主叫方的 資訊。如果invite已經接收到成功響應 2xx 或已經傳送ack,則會話被認為是建立的。成功的invite請求在兩個使用者 之間建立對話,...