感謝大牛的系列文章, 本文只是本人學習過程的記錄, 首先向大神致敬!
1.建立檔案people.json
2.上傳到hdfs檔案系統 目錄位置: /data/people.json
hdfs dfs -put ./people.json /data
3.在hdfs中檢視檔案是否完整,如下
[root@hd-02 ~]# hdfs dfs -cat /data/people.json
[root@hd-02 ~]#
4.啟動spark shell , 並執行如下**:
bin/spark-shell
scala> val sqlcontext = new org.apache.spark.sql.sqlcontext(sc)
scala> val df = sqlcontext.read.json("hdfs://hd-01:9000/data/people.json")
5.測試
scala> df.show
+----+-------+
| age| name|
+----+-------+
|null|michael|
| 30| andy|
| 19| justin|
+----+-------+
scala> df.printschema()
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)
scala> df.select("name").show
+-------+
| name|
+-------+
|michael|
| andy|
| justin|
+-------+
scala> df.filter( df("age") > 21 ).show
+---+----+
|age|name|
+---+----+
| 30|andy|
+---+----+
scala> df.registertemptable("people")
scala> val teenagers = sqlcontext.sql("select name, age from people where age >= 13 and age <= 19")
teenagers: org.apache.spark.sql.dataframe = [name: string, age: bigint]
scala> teenagers.map(t => "name: " + t(0)).collect().foreach(println)
name: justin
Spark學習(一)之Spark初識
1.spark歷史及簡介 spark是乙個實現快速通用的集群計算平台。它是由加州大學伯克利分校amp實驗室 開發的通用記憶體平行計算框架,用來構建大型的 低延遲的資料分析應用程式。它擴充套件了廣泛使用的mapreduce計算模型。12年正式開源,距今6年歷史。spark執行架構的設計 cluster...
Spark學習之Spark調優與除錯(7)
當建立乙個sparkcontext時就會建立乙個sparkconf例項。優先順序最高的是在使用者 中顯示呼叫set 方法設定選項 其次是通過spark submit傳遞的引數 再次是寫在配置檔案裡的值 最後是系統的預設值。需求 使用spark shell完成簡單的日誌分析應用。scala val i...
spark機器學習實現之fpgrowth
很久之前就像寫一些關於資料探勘演算法的東西,因為懶現在才開始動手,因為fpgrowth演算法在mlib中的實現 相對比較簡單,所以打算先拿它下手。關於fpgrowth的原理本人說的也不專業,推薦 這裡主要寫一下在mlib當中,實現的乙個過程 先上 logger.getlogger org setle...