pd.read_csv:讀取文字檔案(csv、tsv、txt等格式)
pd.read_excel:讀取電子**(xls或xlsx格式)
pd.read_sql:讀取資料庫資料(需要pymysql或pymssql模組的配合)
df.to_csv:寫入文字檔案(df為dataframe物件)
df.to_csv:寫入電子**
df.to_csv:寫入資料庫
例子
# 讀入mysql資料庫資料
# 匯入第三方模組
import pymysql
# 連線mysql資料庫
conn = pymysql.connect(host = 'localhost',password = 'test',database = 'test',port = 3306,charset = 'utf8')
# 讀取資料
user = pd.read_sql('select * from topy',conn)
# 關閉連線
conn.close()
df.head:預覽資料前幾行
df.tail:預覽資料後幾行
df.shape:返回資料的行列數
df.columns:返回資料集的列名稱
df.dtypes:返回資料集各變數的型別
df.describe:返回資料的描述性統計量
s.value_counts:離散變數的頻次統計
s.quantile:連續變數的分位數列表
s為series物件
df.isnull:判斷資料是否存在缺失值
df.duplicated:判斷資料是否存在重複值
df.dropna:刪除缺失值
df.fillna:填充缺失值
df.drop_duplicates:刪除重複值
df.drop:刪除變數或某些行(可以是變數也可以對行索引)
df.rename:重新命名(同上)
df.reset_index:行索引轉變量
# 將birthday變數轉換為日期
df.birthday=pd.to_datetime(df.birthday,format = '%y%m%d'
# 將手機號轉換為字串
df.tel = df.tel.astype('str')
# 新增年齡和工齡兩項
df['age'] = pd.datetime.today().year - df.birthday.dt.year
df['workage'] = pd.datetime.today().year - df.start_work.dt.year
# 將手機中間四位數隱藏起來
# 取出郵箱的網域名稱
# 取出人員的專業資訊
df['profession'] = df.other.str.findall('專業:(.*?),')
# 去除birthday、start_work和other變數
df.drop(['birthday','start_work','other'],axis = 1,inplace = true)
pd.concat:資料合併(可以是行合併,也可以是列合併)
pd.merge:資料連線(與資料庫的join操作類似)
pd.pivot_table:透視表
df.groupby:資料分組
df.groupby.summarize:分組統計
# 構造資料集df1和df2
df1 = pd.dataframe()
df2 = pd.dataframe()
# 資料的縱向合併
pd.concat([df1,df2],keys = ['df1','df2'])
# df3資料集的名字為name
df3 = pd.dataframe()
# 資料集的縱向合併
pd.concat([df1,df2])
# 三表的資料連線
merge1 = pd.merge(left = df1,right = df2,how = 'left')
merge2=pd.merge(left = merge1,right = df3,how = 'inner')
Heritrix的主要模組
1 frontier 鏈結工廠 是heritrix最核心的部分,有三個核心的方法 next,schedule,finished,其原型及作用如下 a 程提供乙個鏈結.heritrix的所有處理執行緒 toethread 都是通過呼叫該方法獲取鏈結的 b schedule candidateuri c...
python模組 pandas 熊貓模組
series 類似於一維陣列物件,類似於有的字典。資料列表series s1 pd.series 1 a 5 7,999 print s1 01 1 a25 374999 dtype object使用字典series sdata s3 pd.series sdata print s3 a 35000...
Python中的Pandas模組
目錄 pandas series 序列的建立 序列的讀取 dataframe dataframe的建立 dataframe資料的讀取 panel panel的建立 pandas python data analysis library 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立...