一、安裝spark
檢查基礎環境hadoop,jdk
配置檔案、 環境變數
#配置環境
修改環境變數 vim ~/.bashrc
#生效 source ~/.bashrc
試執行python**
二、python程式設計練習:英文文字的詞頻統計
準備文字檔案
統計每個單詞出現的次數
結果寫檔案
三、根據自己的程式設計習慣搭建程式設計環境(選做)
使用jupyter notebook除錯pyspark程式:參考
使用pycharm參考:ubuntu 16.04 + pycharm + spark 執行環境配置
2 安裝Spark與Python練習
檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...
2 安裝Spark與Python練習
讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別 分詞未去停用詞 text s...