資料分析 numpy基礎（三）

橫向堆疊，將兩個表在x軸向拼接在一起：

pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'

引數名稱

說明objs

接受多個series，dataframe，panel組合，表示參與的組合

axis

連線的軸向，axis=0縱向拼接，axis=1橫向拼接

join

接受inner或outer，表示是按交集（inner）還是並集（outer）進行合併

join_axes

接受index物件。表示其他n-1條軸的索引

pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)

pd.join(self,other,on=none,how="left")#兩個主鍵名字必須相同

pd.dataframe.combin_first(other)

def delrep(list1):
list2=
for i in list1:
if i not in list2:
return list2

或者使用set函式進行去重，但會資料排列

使用pd.dataframe.drop_duplicates(self,subset=none,keep="first',inplace=false),不會改變但是只能用打他發麼或者series

isnull()識別缺失值，notnull()識別非缺失值，可以結合sum()來檢查缺失值

pd.dateframe.dropna(self,axis=0,how='any',inplace=false)，刪除缺失值

pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替換缺失值

常用異常值檢查：3σ原則和箱線圖分析

離散標準化：標準化後資料限定在[0,1]的區間裡

標準差標準化：資料分布影響小

小數定標標準化：比較好用

pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)

data是處理的資料，prefix是啞變數化後列名的字首，columns需要編碼的列名

等寬法：pd.cut(x,bins,right=true,labels=none,retbins=false)

引數名稱說明x

處理的資料

bins

若為int，代表離散化的類別數目，如果為序列資料，這表示切分的區間

right

代表右側是否為閉區間

labels

離散化後的類別名稱

retbins

返回區間標籤

資料分析 numpy基礎

目錄 numpy是高效能科學計算和資料分析的基礎包。它也是pandas等其他資料分析的工具的基礎，基本所有資料分析的包都用過它。numpy為python帶來了真正的多維陣列功能，並且提供了豐富的函式庫處理這些陣列。它將常用的數學函式都支援向量化運算，使得這些數學函式能夠直接對陣列進行操作，將本來需要...

資料分析 numpy基礎（二）

matr1 np.mat 1 2 3 4 5 6 7 8 9 用mat函式建立矩陣 matr2 np.matrix 1,2,3 4,5,6 7,8,9 用matrix函式建立矩陣 np.bmat arr1 arr2 arr1 arr2 用bmat函式合成矩陣矩陣相乘 matr1 matr2 矩陣元...

numpy資料分析

2020 11 2 import array arr array.array i list range 10 i表示整型,生成序列後不能改變資料型別多維陣列ndarray方便處理多維度運算，運算效率高 nparr np.array list range 10 修改值，浮點數取整數段 nparr 2...

資料分析 numpy基礎（三）

資料分析 numpy基礎

資料分析 numpy基礎（二）

numpy資料分析

相關推薦