Pandas庫學習筆記(資料分析處理庫)

2021-08-27 16:19:46 字數 808 閱讀 3708

主要用作:資料預處理

一.資料讀取

pandas.read_csv()

pandas格式:dataframe格式資料流(最核心)#此後用df來表示

df.head(幾行) 看前幾行資料      #預設為前五行

df.tail(幾行)   看後幾行

df.columns  返回列的名字

df.shape  返回幾行幾列

df.loc[index]  定位資料

可以切片df.loc[n:m]

index 不能越界 

df["列名"]  返回列

.tolist 轉換成列表

.endwith()  檢查以什麼結尾

二. 資料預處理

df.sort_values(「列名」,inplace = true)  以哪一列為基準進行排序,inplace :是否替換(生成新的列),ascending =false(降序)

pd.isnull(列) 判斷是否有缺失值

三.常用函式

df["列名"].mean() 直接過濾缺失值,求均值

df.pivot_table(index = 以哪個指標為基準,value = 統計的資料,aggfunc = 統計方式 ) # 預設方法為計算均值

df.dropna(axis = 1, subset = 列名)     drop掉缺失值

df.loc[第幾號樣本,列名]      定位

df.reset_index()    更新索引值

四.series 結構

相當於dataframe 的子集,可當作numpy當中的ndarray

pandas資料分析筆記

對df一部分小於等於0的資料設定為nan df df.iloc 1 0 np.nan某列轉換成數值型 df vc1 871eh1 ga03 i1 meas1 prim pd.to numeric df vc1 871eh1 ga03 i1 meas1 prim errors coerce coerc...

Pandas庫 資料分析處理庫

pandas 基於numpy開發,主要資料結構是 series 一維資料 與 dataframe 二維資料 主要功能 資料預處理 特徵提取get dummies 處理缺失資料 表示為 nan 插入或刪除 dataframe 等多維物件的列 繪圖 將dataframe按列繪圖plot 資料對齊 顯式地...

資料分析學習筆記 資料探勘建模過程

1.確定資料探勘的目標 2.資料取樣 3.資料整理 4.構建資料模型 5.模型評價 6.模型應用 針對具體的資料探勘應用需求,首先要確定本次資料探勘的目標是什麼?系統完成之後能夠達到什麼樣的效果?要想充分發揮資料探勘的價值,必須對目標有乙個清晰明確的定義,即決定到底想幹什麼?在明確了需要進行資料探勘...