RDD轉換成DataFrame的兩種方式

spark sql支援兩種不同的方式將rdd轉換為dataframe。第一種是使用反射來推斷包含特定型別物件的rdd的模式，這種基於反射的方式可以提供更簡潔的**，如果在編寫spark應用程式時，已經明確了schema，可以使用這種方式。第二種方式是通過可程式設計介面來構建schema，然後將其應用於現有的rdd。此方式編寫的**更冗長，但在不知道colum及其type的情況下，可以使用這種方式。

下面案例的資料集如下people.txt：

michael, 29 andy, 30

justin, 19

spark sql的scala介面支援自動將包含樣例類的rdd轉換為dataframe。樣例類定義表的schema。通過反射讀取樣例類的引數名稱，並對映成column的名稱。

package com.company.sparksql
import org.apache.log4j.
import org.apache.spark.sql.sparksession
object rdd2df_m1 
private def runrdd2df(spark: sparksession) = 
}

通過構建schema的方式建立dataframe主要包括三步：

(1)從原始rdd建立row型別的rdd

(2)使用structtype，建立schema

(3)通過createdataframe方法將schema應用於row型別的rdd

package com.company.sparksql
import org.apache.log4j.
import org.apache.spark.sql.types.
import org.apache.spark.sql.
object rdd2df_m2 
private def runrdd2df(spark: sparksession) = 
}

基於RDD建立DataFrame

spark sql支援兩種不同的方法用於轉換已存在的rdd成為dataset。第一種方法是使用反射去推斷乙個包含指定的物件型別的rdd的schema。在你的spark應用程式中當你已知schema時這個基於方法的反射可以讓你的更簡潔。不過這種方法要求你在寫程式時已經知道rdd物件的結構資訊，因為需...

漢字轉換成拼音

c 乙個有用的漢字轉拼音類 c 漢字轉換為拼音的類，含大小寫轉換因為是靜態函式呼叫方法很簡單 crazycoderpinyin.convert 瘋狂如下 using system using system.collections.generic using system.text using ...

分數轉換成小數

問題描述，輸入兩個整數a,b，將分數輸出a b的小數格式，如果a b是迴圈小數，則將迴圈部分用括號括起來，例如 1 4 0.25 1 3 0.3 1 6 0.1 6 分析實質上是實現高精度浮點數除法。借助雜湊表來獲取迴圈部分。public class solution static int b i...

RDD轉換成DataFrame的兩種方式

基於RDD建立DataFrame

漢字轉換成拼音

分數轉換成小數

相關推薦