pandas是在numpy基礎上構建的,numpy的一些通用函式也可以在pandas上使用。dataframe類用來管理具有索引和標籤的資料,這些資料與來自sql資料表或電子**(例如excel)的資料沒有太多不同。以下介紹幾種建立dataframe的方法。
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
df = pd.dataframe([10,20,30,40], columns=['numbers'], index=['a','b','c','d'])
print(df)
執行結果如下:
numbers
a 10
b 20
c 30
d 40
process finished with exit code 0
資料:[10,20,30,40]
資料可以用不同組成或型別提供(列表,元組,ndarray,字典物件都是候選者)
標籤:columns=['numbers']
資料組織為列,可以自定義列名
索引:index=['a','b','c','d']
索引可以採用不同的格式(數值,字串,時間資訊)
df = pd.dataframe(data=[[10,20],[30,40],[50,60],[70,80]], columns=['numbers','floats'], index=['a','b','c','d'])
print(df)
執行結果:
numbers floats
a 10 20
b 30 40
c 50 60
d 70 80
#字典組成的列表
data = [, ]
df = pd.dataframe(data)
print(df)
執行結果:
no1 no2 no3
0 1 2 nan
1 3 4 5.0
#通過字典建立:
data =
df = pd.dataframe(data)
print(df)
執行結果:
one two
0 1 5
1 2 6
2 3 7
3 4 8
# series組成的字典
data =
df = pd.dataframe(data)
print(df)
執行結果:
one two
0 a 1
1 b 2
2 c 3
3 d 4
#字典的字典
data = ,'a2':}
df = pd.dataframe(data)
print(df)
執行結果:
a1 a2
b1 1 4
b2 2 5
b3 3 6
基於RDD建立DataFrame
spark sql支援兩種不同的方法用於轉換已存在的rdd成為dataset。第一種方法是使用反射去推斷乙個包含指定的物件型別的rdd的schema。在你的spark應用程式中當你已知schema時這個基於方法的反射可以讓你的 更簡潔。不過這種方法要求你在寫程式時已經知道rdd物件的結構資訊,因為需...
DataFrame概念與建立
一 概念 pandas是乙個開源的python資料分析庫。pandas把結構化資料分為了三類 series,1維序列,可視作為沒有column名的 只有乙個column的dataframe dataframe,同spark sql中的dataframe一樣,其概念來自於r語言,為多column並sc...
dataframe 新增列方法
引入需用的包,並新建dataframe例子 in 1 import pandas as pd import numpy as np in 2 data pd.dataframe np.array 1,2,3 4,5,6 7,8,9 columns a b c in 3 data out 3 a b ...