一 概念pandas是乙個開源的python資料分析庫。pandas把結構化資料分為了三類:
series,1維序列,可視作為沒有column名的、只有乙個column的dataframe;
dataframe,同spark sql中的dataframe一樣,其概念來自於r語言,為多column並schema化的2維結構化資料,可視作為series的容器(container);
panel,為3維的結構化資料,可視作為dataframe的容器;
二 建立dataframe
# 標準建立
df2 = pd.dataframe(np.arange(16).reshape((4,4)),index=['a','b','c','d'], columns=['one','two','three','four'])
print "df2 =", df2
# 用傳入等長列表組成的字典來建立(用dataframe自帶索引) 自帶列名
data=
df=pd.dataframe(data)
print "df =", df
# 傳入巢狀字典(字典的值也是字典)建立dataframe (使用字典內嵌索引) 自帶列名
nest_dict = , 'beijing': }
df1=pd.dataframe(nest_dict)
print "df1 =", df1
# 傳入series (帶大括號,另外需加列名)
list = ['1', '2', '3', '4']
s= pd.series(list, index=['a', 'b', 'c', 'd'])
df1=pd.dataframe()
print "df1 =", df1
print df1
三
基於RDD建立DataFrame
spark sql支援兩種不同的方法用於轉換已存在的rdd成為dataset。第一種方法是使用反射去推斷乙個包含指定的物件型別的rdd的schema。在你的spark應用程式中當你已知schema時這個基於方法的反射可以讓你的 更簡潔。不過這種方法要求你在寫程式時已經知道rdd物件的結構資訊,因為需...
DataFrame建立方法(一)
pandas是在numpy基礎上構建的,numpy的一些通用函式也可以在pandas上使用。dataframe類用來管理具有索引和標籤的資料,這些資料與來自sql資料表或電子 例如excel 的資料沒有太多不同。以下介紹幾種建立dataframe的方法。coding utf 8 import num...
三種方式建立DataFrame
import pandas as pd data df pd.dataframe data dfab c047 10158 11269 12import pandas as pd data 4,7,10 5,8,11 6,9,12 df pd.dataframe data,columns a b c...