一、spark core的使用
1.在jupyter網頁上建立新的ipynb檔案
2.環境準備**
import os
import sys
spark_home = os.environ.get('spark_home',none)
if not spark_home:
raise valueerror('spark_home enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))
exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())
執行後顯示
二、概念
1.spark core:spark生態圈的核心
rdd:容錯性分布資料(resilient distributed dataset),spark core的任務就是對這些資料進行分布式計算
2.rdd型別:
對rdd的操作
3.並行化集合(我們處裡的rdd資料,所有對於集合而言,第一步需要並行化)
可以看到我們的集合已經成功並行化
4.取值操作
take(n):從rdd返回n個元素
top(num):從rdd返回最大的num個數的元素
first():從rdd返回第乙個元素
collect():從rdd返回所有元素
5.rdd元素變換
靜態聯編與動態聯編
在c 中,多型性主要是通過函式過載實現的。過載函式是指程式中對同名函式進行呼叫時,編譯器會根據函式引數的型別和個數,決定該呼叫哪一段函式 來處理這個函式呼叫。這種把函式呼叫與適當的函式 相對應的動作,叫做聯編。聯編分為靜態聯編和動態聯編。在編譯階段決定執行哪個同名的被呼叫函式,稱為靜態聯編。在編譯階...
靜態聯編和動態聯編
聯編是指乙個電腦程式自身彼此關聯 使乙個 源程式經過編譯 連線,成為乙個可執行程式 的過程,在這個聯編過程中,需要確定程式中的操作呼叫 函式呼叫 與執行該操作 函式 的 段之間的對映關係,按照聯編所進行的階段不同,可分為靜態聯編和動態聯編。靜態聯編 呼叫函式和被調函式在程式編譯時,他們在記憶體中的位...
靜態聯編和動態聯編
聯編就是將模組或者函式合併在一起生成可執行 的處理過程,同時對每個模組或者函式呼叫分配記憶體位址,並且對外部訪問也分配正確的記憶體位址,它是電腦程式彼此關聯的過程。按照聯編所進行的階段不同,可分為兩種不同的聯編方法 靜態聯編和動態聯編。靜態聯編是指在編譯階段就將函式實現和函式呼叫關聯起來,因此靜態聯...