主要用作:資料預處理
一.資料讀取
pandas.read_csv()
pandas格式:dataframe格式資料流(最核心)#此後用df來表示
df.head(幾行) 看前幾行資料 #預設為前五行
df.tail(幾行) 看後幾行
df.columns 返回列的名字
df.shape 返回幾行幾列
df.loc[index] 定位資料
可以切片df.loc[n:m]
index 不能越界
df["列名"] 返回列
.tolist 轉換成列表
.endwith() 檢查以什麼結尾
二. 資料預處理
df.sort_values(「列名」,inplace = true) 以哪一列為基準進行排序,inplace :是否替換(生成新的列),ascending =false(降序)
pd.isnull(列) 判斷是否有缺失值
三.常用函式
df["列名"].mean() 直接過濾缺失值,求均值
df.pivot_table(index = 以哪個指標為基準,value = 統計的資料,aggfunc = 統計方式 ) # 預設方法為計算均值
df.dropna(axis = 1, subset = 列名) drop掉缺失值
df.loc[第幾號樣本,列名] 定位
df.reset_index() 更新索引值
四.series 結構
相當於dataframe 的子集,可當作numpy當中的ndarray
pandas資料分析筆記
對df一部分小於等於0的資料設定為nan df df.iloc 1 0 np.nan某列轉換成數值型 df vc1 871eh1 ga03 i1 meas1 prim pd.to numeric df vc1 871eh1 ga03 i1 meas1 prim errors coerce coerc...
Pandas庫 資料分析處理庫
pandas 基於numpy開發,主要資料結構是 series 一維資料 與 dataframe 二維資料 主要功能 資料預處理 特徵提取get dummies 處理缺失資料 表示為 nan 插入或刪除 dataframe 等多維物件的列 繪圖 將dataframe按列繪圖plot 資料對齊 顯式地...
資料分析學習筆記 資料探勘建模過程
1.確定資料探勘的目標 2.資料取樣 3.資料整理 4.構建資料模型 5.模型評價 6.模型應用 針對具體的資料探勘應用需求,首先要確定本次資料探勘的目標是什麼?系統完成之後能夠達到什麼樣的效果?要想充分發揮資料探勘的價值,必須對目標有乙個清晰明確的定義,即決定到底想幹什麼?在明確了需要進行資料探勘...