橫向堆疊,將兩個表在x軸向拼接在一起:
pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'
引數名稱
說明objs
接受多個series,dataframe,panel組合,表示參與的組合
axis
連線的軸向,axis=0縱向拼接,axis=1橫向拼接
join
接受inner或outer,表示是按交集(inner)還是並集(outer)進行合併
join_axes
接受index物件。表示其他n-1條軸的索引
pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)
pd.join(self,other,on=none,how="left")#兩個主鍵名字必須相同
pd.dataframe.combin_first(other)
def delrep(list1):
list2=
for i in list1:
if i not in list2:
return list2
或者使用set函式進行去重,但會資料排列
使用pd.dataframe.drop_duplicates(self,subset=none,keep="first',inplace=false),不會改變但是只能用打他發麼或者series
isnull()識別缺失值,notnull()識別非缺失值,可以結合sum()來檢查缺失值
pd.dateframe.dropna(self,axis=0,how='any',inplace=false),刪除缺失值
pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替換缺失值
常用異常值檢查:3σ原則和箱線圖分析
離散標準化:標準化後資料限定在[0,1]的區間裡
標準差標準化:資料分布影響小
小數定標標準化:比較好用
pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)
data是處理的資料,prefix是啞變數化後列名的字首,columns需要編碼的列名
等寬法:pd.cut(x,bins,right=true,labels=none,retbins=false)
引數名稱說明x
處理的資料
bins
若為int,代表離散化的類別數目,如果為序列資料,這表示切分的區間
right
代表右側是否為閉區間
labels
離散化後的類別名稱
retbins
返回區間標籤
資料分析 numpy基礎
目錄 numpy是高效能科學計算和資料分析的基礎包。它也是pandas等其他資料分析的工具的基礎,基本所有資料分析的包都用過它。numpy為python帶來了真正的多維陣列功能,並且提供了豐富的函式庫處理這些陣列。它將常用的數學函式都支援向量化運算,使得這些數學函式能夠直接對陣列進行操作,將本來需要...
資料分析 numpy基礎(二)
matr1 np.mat 1 2 3 4 5 6 7 8 9 用mat函式建立矩陣 matr2 np.matrix 1,2,3 4,5,6 7,8,9 用matrix函式建立矩陣 np.bmat arr1 arr2 arr1 arr2 用bmat函式合成矩陣 矩陣相乘 matr1 matr2 矩陣元...
numpy資料分析
2020 11 2 import array arr array.array i list range 10 i表示整型,生成序列後不能改變資料型別 多維陣列ndarray方便處理多維度運算,運算效率高 nparr np.array list range 10 修改值,浮點數取整數段 nparr 2...