import pandas as pd
# 缺失值處理
df = pd.read_excel(
'/users/caizhengjie/desktop/a.xlsx'
)print
(df)
# 直接呼叫info方法就會返回每一列的缺失值
print
(df.info())
print
('.....................'
)# isnull方法判斷哪個是缺失值
print
(df.isnull())
print
('.....................'
)# 缺失值刪除
'''缺失值分為兩種:1一行中某個欄位的缺失值,2一行全部為空白
dropna為刪除含有缺失值的行,只要某一行有缺失值就把這一行刪除,執行dropna()方法之後刪除含有nan值的行,返回刪除後的資料
dropna(how = 'all'),指刪除全部為空值的行 ,不全為空值的行就不會被刪除
'''# print(df.dropna(how='all'))
print
('.....................'
)# 缺失值的填充
# fillna(0)即將所有空值填充為0
# fillna()
print
(df.fillna())
print
('.....................'
)# 重複值處理
# drop_duplicates()方法,預設對所有值進行重複值判斷,且預設保留第一行的值
# drop_duplicates(subset = '指要判斷的列名',keep關鍵字,keep = 'fist'k或者'last'即預設是保留第乙個,keep = false指把重複列全部刪除)
# 資料型別
# print(df.info()) #檢視全部資料型別
# print(df['學號'].dtype) #檢視某一列的資料型別
# 型別轉換-astype()轉換資料型別
# print(df['學號'].astype('float'))
# 素引設定
# print('.....................')
# df.columns('學號','s','a','r','w','v','x','b')
Python資料預處理
1.匯入資料檔案 excel,csv,資料庫檔案等 df read table file,names 列名1,列名2,sep encoding file是檔案路徑,names預設為檔案的第一行為列名,sep為分隔符,預設為空,表示預設匯入為一列 encoding設定檔案編碼,匯入中文時,需設定utf...
python資料預處理
scikit learn 提供的binarizer能夠將資料二元化 from sklearn.preprocessing import binarizer x 1,2,3,4,5 5,4,3,2,1 3,3,3,3,3 1,1,1,1,1 print before transform x binar...
Python 資料預處理
匯入標準庫 import numpy as np import matplotlib.pyplot as plt import pandas as pd 匯入資料集 dataset pd.read csv data 1 csv read csv 讀取csv檔案 建立乙個包含所有自變數的矩陣,及因變數...