1.使用流行的python的sql工具包sqlalchemy,它能簡化你的資料庫操作。
2.同時,pandas提供了乙個read_sql函式,允許你從通用的sqlalchemy連線中輕鬆地讀取資料
3.在anaconda中,已經預設安裝了sqlalchemy,可以直接使用
import sqlalchemy as sqla
import pandas as pd
db = sqla.create_engine('mysql+pymysql:')
# 建立連線
pd.read_sql('select * from channel', db) # 查詢資料並轉換為pandas物件
engine = create_engine('mysql+mysqlconnector://root:123456@localhost:3306/test')
我使用了mysql資料庫,資料庫連線框架用的是mysqlconnector,使用者名為root,密碼是123456,埠號是localhost(127.0.0.1),埠號是3306(mysql伺服器預設埠號),test是資料庫的名字。
pandas中
例:s.dropna()
刪除缺失值
dataframe中
在處理dataframe物件的缺失值的時候,可能會複雜點。無法刪除df的單個元素,只能整行整列的刪除
df.dropna()
#刪除有空值的行 (只要行中有乙個空值就刪全行)
df.dropna(how='all')
#刪除一整行全是空值的
df.dropna(axis=1)
#刪除有空值的列 (只要列中有乙個空值就刪全列)
df.dropna(axis=1, how='all')
#刪除一整列全是空值的
df.fillna(method='bfill'/'ffill',limit=2 )
用某些值填充缺失的資料或使用插值方法
#bfill向後填充 ffill向前填充 limit=限制填充次數
dataframe中
df.fillna(method='bfill'/'ffill',limit=2 )
用某些值填充缺失的資料或使用插值方法
#bfill向後填充 ffill向前填充 limit=限制填充次數 (與缺失值中的筆記相同)
dataframe中
1.使用duplicated方法判斷各行是否有重複,並返回乙個布林值series。
2.然後使用drop_duplicates方法將重複行刪除,留下那些不重複的。
例:df.drop_duplicates(['k1'])
#刪除df中k1列的重複值 不寫預設刪除 整行重複值
Pandas 缺失資料
一.處理缺失資料 二.濾除缺失資料 三.填充缺失資料 方法說明 dropna根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 fillna用指定值或插值方法 如 ffill 或 bfill 填充缺失資料 isnull返回乙個含有布林值的物件,這些布林值表示哪些值時預設...
Pandas缺失資料
一 缺失值的統計和刪除 缺失資訊的統計 資料處理中經常需要根據缺失值的大小 比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。dropna的主要引數為軸方向axis 預設為0,即刪除行 刪除方式how 刪除的非缺失值個數閾值thresh 非 缺 失 值 col...
pandas 缺失資料
檢視缺失的比例 全部缺失 df sub set.isna any 1 head 至少有乙個缺失 沒有缺失 資料處理中經常需要根據缺失值的大小 比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。dropna的主要引數為軸方向axis 預設為0,即刪除行 刪除方式...