sparksql---實戰應用
資料集: movielens 1m datase
users.dat ---userid::gender::age::occupation::zip-code
movies.dat --- movieid::title::genres
ratings.dat ---userid::movieid::rating::timestamp
sogouq.mini
完成以下業務需求:
1. 年齡段在「18-24」的男性年輕人,最喜歡看哪10部
2.得分最高的10部電影;看過電影最多的前10個人;女性看多最多的10部電影;男性看過最多 的10部電影
3.利用資料集sogouq2012.mini.tar.gz 將資料按照訪問次數進行排序,求訪問量前10的**
**如下:
import org.apache.spark.import org.apache.spark.sql.sqlcontext
import org.apache.spark.sql.dataset
object hw_sparksql
}
Spark Sql之DataFrame實戰詳解
在spark 1.3新加的最重要的新特性之一dataframe的引入,很類似在r語言中的dataframe的操作,使得spark sql更穩定高效。1 dataframe簡介 在spark中,dataframe是一種以rdd為基礎的分布式資料據集,類似於傳統資料庫聽二維 dataframe帶有sch...
Spark SQL操作Hive實戰
在目前企業級 spark大資料開發中,大多數情況下都是採用hive來作為資料倉儲的。spark提供了對hive的支援,spark通過hivecontext可以直接操作hive中的資料。基於hivecontext,我們可以使用sql hql兩種方式來編寫sql語句 對hive進行操作,包括 建立表 刪...
Spark SQL程式設計實戰案例
spark sql程式設計實戰案例 一.spark sql程式設計之dataframe篇 博主推薦閱讀 二.spark sql程式設計之dataset篇 博主推薦閱讀 三.dataframe與dataset的互操作 root hadoop101.yinzhengjie.org.cn vim tmp ...