spark快速大資料分析之學習記錄（四）

題外話：這是乙個「**」，主要用於記錄並監督我每週的spark學習程序

一、初始化sparkcontext【基於python】

1.新建乙個py檔案，用於存放python指令碼（備註：我在桌面建了乙個資料夾py，主要用來存放python指令碼）

shell命令：

sudo vim "test.py"

然後在test.py文字中輸入以下程式：

from pyspark import sparkconf,sparkcontext
sc=sparkcontext(conf=conf)

儲存檔案並退出，然後啟動該程式。

shell命令：

cd /usr/lib/spark/spark-2.4.3-bin-hadoop2.7/ #進入spark目錄 ./bin/spark-submit /home/hadoop/桌面/py/test.py #執行

執行截圖：

二、執行examples中自帶的wordcount.py

spark目錄下有個examples資料夾，裡面附帶python編寫的各類示例，如下圖所示：

同樣，通過shell命令來執行wordcount.py

shell命令：

./bin/spark-submit ./examples/src/main/python/wordcount.py readme.md

執行截圖：

spark快速大資料分析之學習記錄（五）

題外話這是乙個主要用於記錄並監督我每週的spark學習程序上週畢業典禮，放肆high 1 rdd基礎 rdd risilient distributed dataset 彈性分布式資料集，簡單理解成不可變的分布式的元素集合 2.建立rdd python 建立rdd有兩種外部讀取檔案和自定義傳...

Spark快速大資料分析 RDD程式設計

rdd resilient distributed dataset 彈性分布式資料集 rdd就是乙個不可變的分布式物件集合。每個rdd都被分為多個分割槽，這些分割槽執行在集群中的不同節點。使用者可以通過2中方法建立rdd 1 讀取乙個外部資料集 sc.textfile test.txt 2 在驅動器...

Spark 大資料分析介紹

spark的基本原理 executor worker task jobstage dagscheduler taskscheduler rdd一些疑問一些結論 spark是乙個以複雜計算為核心的大資料分析框架，是mapreduce的後繼者具備高效性通用性等特點。spark最初在2009年由加...

spark快速大資料分析之學習記錄（四）

spark快速大資料分析之學習記錄（五）

Spark快速大資料分析 RDD程式設計

Spark 大資料分析 介紹

相關推薦

Spark 大資料分析介紹