count
非 na 值的數量
describe
針對 series 或 df 的列計算匯**計
min , max
最小值和最大值
argmin , argmax
最小值和最大值的索引位置(整數)
idxmin , idxmax
最小值和最大值的索引值
quantile
樣本分位數(0 到 1)
sum求和
mean
均值median
中位數mad
根據均值計算平均絕對離差
var方差
std標準差
skew
樣本值的偏度(三階矩)
kurt
樣本值的峰度(四階矩)
cumsum
樣本值的累計和
cummin , cummax
樣本值的累計最大值和累計最小值
cumprod
樣本值的累計積
diff
計算一階差分(對時間序列很有用)
pct_change
計算百分數變化
(1).fillna()會填充nan資料,返回填充後的結果
(2)pddata["a"].unique() 特徵a的值出現的set——唯一值
(3).loc選取指定列進行操作——df.loc[行標籤,列標籤]
(4).iloc函式——只能通過行號索引:df.iloc[0:4]它是基於索引位來選取資料集,0:4就是選取 0,1,2,3這四行
(5)作圖
from pandas.tools.plotting import scatter_matrix(混淆散點圖)
scatter_matrix(含有n個特徵的資料x,s=100, alpha=1, c=colors[index], figsize=(10,10))
例如:scatter_matrix(beer[["calories","sodium","alcohol","cost"]],s=100, alpha=1, c=colors[beer["cluster"]], figsize=(16,16))
pandas 常用函式
本文翻譯自文章 pandas cheat sheet python for data science 同時新增了部分註解。對於資料科學家,無論是資料分析還是資料探勘來說,pandas是乙個非常重要的python包。它不僅提供了很多方法,使得資料處理非常簡單,同時在資料處理速度上也做了很多優化,使得和...
pandas常用函式
pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd.read excel filename 從excel檔案匯入資料 pd.read sql query,connection object 從sql表 庫...
pandas 常用函式
讀寫csv檔案 寫入 df.to csv filename 讀取 pd.read csv filename,header 0 保留列屬性,header none不讀列屬性 缺失值處理 去掉包含缺失值的行 df.dropna how any 對缺失值進行填充 df.fillna value 5 選擇行...