Pandas的主要模組

2021-09-27 06:12:23 字數 2146 閱讀 3524

pd.read_csv:讀取文字檔案(csv、tsv、txt等格式)

pd.read_excel:讀取電子**(xls或xlsx格式)

pd.read_sql:讀取資料庫資料(需要pymysql或pymssql模組的配合)

df.to_csv:寫入文字檔案(df為dataframe物件)

df.to_csv:寫入電子**

df.to_csv:寫入資料庫

例子

# 讀入mysql資料庫資料

# 匯入第三方模組

import pymysql

# 連線mysql資料庫

conn = pymysql.connect(host = 'localhost',password = 'test',database = 'test',port = 3306,charset = 'utf8')

# 讀取資料

user = pd.read_sql('select * from topy',conn)

# 關閉連線

conn.close()

df.head:預覽資料前幾行

df.tail:預覽資料後幾行

df.shape:返回資料的行列數

df.columns:返回資料集的列名稱

df.dtypes:返回資料集各變數的型別

df.describe:返回資料的描述性統計量

s.value_counts:離散變數的頻次統計

s.quantile:連續變數的分位數列表

s為series物件

df.isnull:判斷資料是否存在缺失值

df.duplicated:判斷資料是否存在重複值

df.dropna:刪除缺失值

df.fillna:填充缺失值

df.drop_duplicates:刪除重複值

df.drop:刪除變數或某些行(可以是變數也可以對行索引)

df.rename:重新命名(同上)

df.reset_index:行索引轉變量

# 將birthday變數轉換為日期

df.birthday=pd.to_datetime(df.birthday,format = '%y%m%d'

# 將手機號轉換為字串

df.tel = df.tel.astype('str')

# 新增年齡和工齡兩項

df['age'] = pd.datetime.today().year - df.birthday.dt.year

df['workage'] = pd.datetime.today().year - df.start_work.dt.year

# 將手機中間四位數隱藏起來

# 取出郵箱的網域名稱

# 取出人員的專業資訊

df['profession'] = df.other.str.findall('專業:(.*?),')

# 去除birthday、start_work和other變數

df.drop(['birthday','start_work','other'],axis = 1,inplace = true)

pd.concat:資料合併(可以是行合併,也可以是列合併)

pd.merge:資料連線(與資料庫的join操作類似)

pd.pivot_table:透視表

df.groupby:資料分組

df.groupby.summarize:分組統計

# 構造資料集df1和df2

df1 = pd.dataframe()

df2 = pd.dataframe()

# 資料的縱向合併

pd.concat([df1,df2],keys = ['df1','df2'])

# df3資料集的名字為name

df3 = pd.dataframe()

# 資料集的縱向合併

pd.concat([df1,df2])

# 三表的資料連線

merge1 = pd.merge(left = df1,right = df2,how = 'left')

merge2=pd.merge(left = merge1,right = df3,how = 'inner')

Heritrix的主要模組

1 frontier 鏈結工廠 是heritrix最核心的部分,有三個核心的方法 next,schedule,finished,其原型及作用如下 a 程提供乙個鏈結.heritrix的所有處理執行緒 toethread 都是通過呼叫該方法獲取鏈結的 b schedule candidateuri c...

python模組 pandas 熊貓模組

series 類似於一維陣列物件,類似於有的字典。資料列表series s1 pd.series 1 a 5 7,999 print s1 01 1 a25 374999 dtype object使用字典series sdata s3 pd.series sdata print s3 a 35000...

Python中的Pandas模組

目錄 pandas series 序列的建立 序列的讀取 dataframe dataframe的建立 dataframe資料的讀取 panel panel的建立 pandas python data analysis library 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立...