都需要變成dataframe
1.val outstructfield :array[structfield]=dataframe.schema.fields
val outschema :structtype = structtype(
outstructfield
:+ structtype("age",integertype,false)
) --------這種寫法是當dataframe裡面的字段不能滿足時,需要加欄位,也就是rdd[row]裡面的字段
val resultdataframe: dataframe= hc.createdataframe(rdd[row],outschema )
resultdataframe.registertemptable("tmeptabelname") ----建立了tmeptabelname的臨時表
2.dataframe.createorreplacetempview("temptablename") ----2.x版本
rdd.todf("field1","field2").createorreplacetempview("temptablename")-----只需要field1,field2兩個欄位的臨時表
dataframe.registertemptable("temptablename")-----1.x版本
Spark之RDD的建立
在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...
spark中建立RDD的方式
spark中建立rdd的幾種方式 1 使用程式中的集合建立rdd 一般用於測試 2 使用本地檔案系統建立rdd 一般用於資料量大的檔案的測試 3 基於hdfs建立rdd 生產環境最常用的rdd建立方式 4 使用s3建立rdd 5 基於資料流建立rdd packagecom.dt.spark impo...
spark 的RDD分割槽
rdd的倆種建立方 1.從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 使用parallelize 從集合建立 scala val rdd sc.parallelize array 1,2,3,4,5,6,7,8 使用makerdd 從集合建立 scala ...