spark
spark是個通用的集群計算框架,通過將大量資料集計算任務分配到多台計算機上,提供高效記憶體計算。如果你熟悉hadoop,那麼你知道分布式計算框架要解決兩個問題:如何分發資料和如何分發計算。hadoop使用hdfs來解決分布式資料問題,mapreduce計算正規化提供有效的分布式計算。類似的,spark擁有多種語言的函式式程式設計api,提供了除map和reduce之外更多的運算子,這些操作是通過乙個稱作彈性分布式資料集(resilient distributed datasets, rdds)的分布式資料框架進行的。
2.spark的核心元件
3.編寫乙個spark應用
編寫spark應用與通過互動式控制台使用spark類似。api是相同的。首先,你需要訪問使用spark編寫spark應用的乙個基本模板如下:
## imports
from
pyspark import sparkconf, sparkcontext
## module constants
"## closure functions
## main functionality
def main(sc):
pass
if __name__ == "
__main__":
# configure spark
conf = conf.setmaster("
local[*]")
sc = sparkcontext(conf=conf)
# execute main functionality
main(sc)
這個模板列出了乙個spark應用所需的東西:匯入python庫,模組常量,用於除錯和spark ui的可識別的應用名稱,還有作為驅動程式執行的一些主要分析方法學。在ifmain中,我們建立了sparkcontext,使用了配置好的context執行main。我們可以簡單地匯入驅動**到pyspark而不用執行。注意這裡spark配置通過setmaster方法被硬編碼到sparkconf,一般你應該允許這個值通過命令列來設定,所以你能看到這行做了佔位符注釋。
寒假學習進度01
日期 2020.01.12 部落格期 123 星期五嗯,把這幾天學習進度彙總一下 1 寒假目標02 應該是沒什麼進展,我還在找位址之間的關聯關係,更不要說製作那個.net的修改器了,我可能需要先製作乙個 植物大戰殭屍 的修改器練練手,不過現在已經找了一部分遊戲位址了,我可以直接把ct檔案先給你們 寒...
寒假學習筆記03
python正規表示式 正規表示式是各種字串操作的強大工具。正規表示式是一種特定於領域的語言 dsl 作為大多數現代程式語言的庫而不僅僅是 python。正規表示式對於以下兩種主要任務是很有用的 驗證字串是否匹配模式 例如,字串具有電子郵件位址的格式 對字串中進行替換 如將所有美式拼寫改為英式拼寫 ...
寒假學習筆記08
之前發了一些相關spark的相關學習,今天學習了下scala語言,scala是一門程式語言,學習scala語言有助於學習spark大資料處理,在學習的同時完成了eclipse的scala的環境搭建,以及寫了乙個簡單的實驗二,的一小部分就是編寫了乙個簡單的演算法,這個程式沒用很長時間,主要是環境搭建耗...