第一周學習總結
總結了近期學到的爬蟲知識與echarts呼叫學習,每天的**時間在2倆小時以上。
近期還會總結一下spark'得學習記錄。
三、實驗內容和要求
1.spark sql 基本操作
將下列 json 格式資料複製到 linux 系統中,並儲存命名為 employee.json。
為 employee.json 建立 dataframe,並寫出 scala 語句完成下列操作:
(1) 查詢所有資料;
(2) 查詢所有資料,並去除重複的資料;
(3) 查詢所有資料,列印時去除 id 字段;
(4) 篩選出 age>30 的記錄;
(5) 將資料按 age 分組;
(6) 將資料按 name 公升序排列;
(7) 取出前 3 行資料;
(8) 查詢所有記錄的 name 列,並為其取別名為 username;
(9) 查詢年齡 age 的平均值; 20
(10) 查詢年齡 age 的最小值。
下面的問題還未解決,總是報錯,在網上有一些解法,但我還沒做。
2.程式設計實現將 rdd 轉換為 dataframe
原始檔內容如下(包含 id,name,age):
1,ella,36
2,bob,29
3,jack,29
請將資料複製儲存到 linux 系統中,命名為 employee.txt,實現從 rdd 轉換得到 dataframe,並按「id:1,name:ella,age:36」的格式列印出 dataframe 的所有資料。請寫出程式**。
3. 程式設計實現利用 dataframe 讀寫 mysql 的資料
(1)在 mysql 資料庫中新建資料庫 sparktest,再建立表 employee,包含如表 6-2 所示的 兩行資料。
(2)配置 spark 通過 jdbc 連線資料庫 mysql,程式設計實現利用 dataframe 插入如表 6-3 所 示的兩行資料到 mysql 中,最後列印出 age 的最大值和 age 的總和。
Spark學習(一)之Spark初識
1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...
Spark學習之 Spark SQL 一
感謝大牛的系列文章,本文只是本人學習過程的記錄,首先向大神致敬 1.建立檔案people.json 2.上傳到hdfs檔案系統 目錄位置 data people.json hdfs dfs put people.json data3.在hdfs中檢視檔案是否完整,如下 root hd 02 hdfs...
Spark學習之Spark調優與除錯(7)
當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者 中顯示呼叫set 方法設定選項 其次是通過spark submit傳遞的引數 再次是寫在配置檔案裡的值 最後是系統的預設值。需求 使用spark shell完成簡單的日誌分析應用。scala val i...