SparkSQL 實戰應用

2022-05-06 08:48:08 字數 662 閱讀 4520

sparksql---實戰應用

資料集: movielens 1m datase

users.dat ---userid::gender::age::occupation::zip-code

movies.dat --- movieid::title::genres

ratings.dat ---userid::movieid::rating::timestamp

sogouq.mini

完成以下業務需求:

1. 年齡段在「18-24」的男性年輕人,最喜歡看哪10部

2.得分最高的10部電影;看過電影最多的前10個人;女性看多最多的10部電影;男性看過最多 的10部電影

3.利用資料集sogouq2012.mini.tar.gz 將資料按照訪問次數進行排序,求訪問量前10的**

**如下:

import org.apache.spark.

import org.apache.spark.sql.sqlcontext

import org.apache.spark.sql.dataset

object hw_sparksql

}

Spark Sql之DataFrame實戰詳解

在spark 1.3新加的最重要的新特性之一dataframe的引入,很類似在r語言中的dataframe的操作,使得spark sql更穩定高效。1 dataframe簡介 在spark中,dataframe是一種以rdd為基礎的分布式資料據集,類似於傳統資料庫聽二維 dataframe帶有sch...

Spark SQL操作Hive實戰

在目前企業級 spark大資料開發中,大多數情況下都是採用hive來作為資料倉儲的。spark提供了對hive的支援,spark通過hivecontext可以直接操作hive中的資料。基於hivecontext,我們可以使用sql hql兩種方式來編寫sql語句 對hive進行操作,包括 建立表 刪...

Spark SQL程式設計實戰案例

spark sql程式設計實戰案例 一.spark sql程式設計之dataframe篇 博主推薦閱讀 二.spark sql程式設計之dataset篇 博主推薦閱讀 三.dataframe與dataset的互操作 root hadoop101.yinzhengjie.org.cn vim tmp ...