python資料分析基礎 基礎資料預處理

2021-10-03 05:23:00 字數 1157 閱讀 4220

linux+pycharm+anaconda

import pandas as pd

data1=pd.dataframe([[

20,99999,6

],[30

,999999,6

],[2

,999994],

[27],

[30,999999,6

]],columns=

["年齡"

,"收入"

,"家屬數"])

data1.info(

)data1.isnull(

)#返回datafrom型別

#刪除含nan的行,返回刪除後的資料

dn=data1.dropna(

)#刪除全為nan的行

dn=data1.dropna(how=

"all"

)#nan值填充

fn=data1.fillna(6)

fn=data1.fillna(

)#刪除重複著

pd=data1.drop_duplicates(

)#按某列進行重複值刪除

pd=data1.drop_duplicates(subset=

"家屬數"

)#按多列進行重複值刪除(兩列同時重複才刪除)

pd=data1.drop_duplicates(subset=

["家屬數"

,"收入"])

#保留重複值keep引數預設為first即保留第乙個也可以為last保留最後乙個,還可以是false即把重複值全部都刪除

pd=data1.drop_duplicates(subset=

"家屬數"

,keep=

"last"

)#pandas資料型別 int float object string unicode datetime64

#檢視某特定列的資料型別

print

(data1[

"家屬數"

].dtype)

print

(data1[

'年齡'

].astype(

'int'))

print

(data1[

"年齡"

].dtype)

python基礎資料分析

單樣本t檢驗 乙個連續變數與乙個數值的顯著性關係 sm.stats.descrstatsw a b ttest mean 0.1 0.1為引數 雙樣本t檢驗 乙個分類變數 二分類 與乙個連續變數的顯著性關係 方差齊性檢查 a1 creditcard exp a b 0 c a2 creditcard...

python資料分析基礎

python資料分析基礎 學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,...

python資料分析基礎

學資料分析之前應該明白整個資料分析的基本流程 1.明確需求與目的 2.資料收集 3.資料預處理 4.資料分析 5.編寫報告 假設檢驗,也稱為顯著性檢驗,是通過樣本的統計量,來判斷與總體引數之間是否存在差異 差異是否顯著 即我們對總體引數進行一定的假設,然後通過收集到的資料,來驗證我們之前作出的假設 ...