python資料預處理

2021-10-02 10:56:14 字數 1236 閱讀 5243

import pandas as pd

# 缺失值處理

df = pd.read_excel(

'/users/caizhengjie/desktop/a.xlsx'

)print

(df)

# 直接呼叫info方法就會返回每一列的缺失值

print

(df.info())

print

('.....................'

)# isnull方法判斷哪個是缺失值

print

(df.isnull())

print

('.....................'

)# 缺失值刪除

'''缺失值分為兩種:1一行中某個欄位的缺失值,2一行全部為空白

dropna為刪除含有缺失值的行,只要某一行有缺失值就把這一行刪除,執行dropna()方法之後刪除含有nan值的行,返回刪除後的資料

dropna(how = 'all'),指刪除全部為空值的行 ,不全為空值的行就不會被刪除

'''# print(df.dropna(how='all'))

print

('.....................'

)# 缺失值的填充

# fillna(0)即將所有空值填充為0

# fillna()

print

(df.fillna())

print

('.....................'

)# 重複值處理

# drop_duplicates()方法,預設對所有值進行重複值判斷,且預設保留第一行的值

# drop_duplicates(subset = '指要判斷的列名',keep關鍵字,keep = 'fist'k或者'last'即預設是保留第乙個,keep = false指把重複列全部刪除)

# 資料型別

# print(df.info()) #檢視全部資料型別

# print(df['學號'].dtype) #檢視某一列的資料型別

# 型別轉換-astype()轉換資料型別

# print(df['學號'].astype('float'))

# 素引設定

# print('.....................')

# df.columns('學號','s','a','r','w','v','x','b')

Python資料預處理

1.匯入資料檔案 excel,csv,資料庫檔案等 df read table file,names 列名1,列名2,sep encoding file是檔案路徑,names預設為檔案的第一行為列名,sep為分隔符,預設為空,表示預設匯入為一列 encoding設定檔案編碼,匯入中文時,需設定utf...

python資料預處理

scikit learn 提供的binarizer能夠將資料二元化 from sklearn.preprocessing import binarizer x 1,2,3,4,5 5,4,3,2,1 3,3,3,3,3 1,1,1,1,1 print before transform x binar...

Python 資料預處理

匯入標準庫 import numpy as np import matplotlib.pyplot as plt import pandas as pd 匯入資料集 dataset pd.read csv data 1 csv read csv 讀取csv檔案 建立乙個包含所有自變數的矩陣,及因變數...