本文列舉幾個常見的pyspark動作函式,幾個常見的轉換函式點這裡
count()
返回資料集中的元素個數
collect()
以列表的形式返回資料集中的所有元素
first()
返回資料集中的第乙個元素
take(n)
以陣列的形式返回資料集中的前n個元素
reduce(func)
通過函式func(輸入兩個引數並返回乙個值)聚合資料集中的元素
foreach(func)
將資料集中的每個元素傳遞到函式func中執行
rdd = sc.parallelize([1
,2,3
,4,5
])rdd.collect(
)
輸出:
[1,
2,3,
4,5]
rdd.first(
)
輸出:
1
rdd.take(n)
輸出:
[1,
2,3]
rdd.
reduce
(lambda a,b:a+b)
輸出:
15
rdd.foreach(
lambda elem:
print
(elem)
)
輸出:
123
45
pyspark系列 日期函式
日期函式 from pyspark.sql.functions import current date spark.range 3 withcolumn date current date show id date 0 2018 03 23 1 2018 03 23 from pyspark.sql...
jQuery函式 動作繫結
jquery四大核心函式 1.sel 引號內書寫選擇器,在全文或者指定內容中拿取元素 span etoak 2.html 直接在引號內書寫html超文字標籤,多用來配合一些方法使用 xx 3.dom 將dom節點轉化為jquery元素 document 4.document ready 為元素繫結事...
PySpark入門三 常用的函式 上
在jupyter notebook中如何使用pyspark?開啟anaconda prompt 並使用pip 安裝好pyspark第三方庫。pip install pyspark 導包 from pyspark import sparkcontext 建立會話 sc sparkcontext.get...