1、配置好hadoop和spark
2、配置好pytho3.5
3、安裝py4j
pip3 install py4j
4、idea 中新增python外掛程式
匯入步驟:file->project structure->modules->右邊欄中點dependencies->點新增->將"spark/python" 新增進去
6、test:
from pyspark.sql import sparksession
if __name__ == "__main__":
spark = sparksession \
.builder \
.master("local") \
.getorcreate()
data = spark.read.csv("/lab/data/2/02singleentry.csv")
data.show(10)
spark.stop()
7、目前觀察不能讀取本地的資料,只能讀取hdfs上的數 環境配置 mac linux配置環境變數
這裡說的是新增使用者級環境變數。sudo vi bash profile 2 然後通過vim編輯器 當然也可以用其他編輯器如nano 新增或修改環境變數。關於vim操作的常見指令可以參考這裡。編輯完畢後在vim裡輸入 wq退出 3 最後再執行 source bash profile立即生效。4 通過...
linux lnmp環境除錯環境配置
catch workers output yes error log log error logdisplay errors on 決定是否將錯誤資訊作為輸出的一部分顯示到螢幕,或者對使用者隱藏而不顯示。display startup errors on 即使 display errors 設定為開...
jmeter環境配置,配置中文環境,原理 1
jmeter原理 jmeter通過執行緒組來驅動多個執行緒組執行測試指令碼對被測試伺服器發起負載,每乙個負載機上都可以執行多個執行緒組。控制機,控制多台 負載機 去測試 被測應用系統 1.控制機 運用多台jmeter負載機進行效能測試時,被選中作為管理機的那台機器即是控制機。jmeter控制機也可以...