Python資料分析之pandas統計分析基礎1

2021-10-03 15:59:11 字數 3168 閱讀 7806

pandas(python data analysis library )是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具,pandas提供了大量能使我們快速便捷地處理資料的函式和方法。

1.1 資料庫資料讀取

pandas提供了讀取與儲存關係型資料庫資料的函式與方法。除了pandas庫外,還需要使用sqlalchemy庫建立對應的資料庫連線。sqlalchemy配合相應資料庫的python連線工具(例如mysql資料庫需要安裝mysqlclient或者pymysql庫),使用create_engine函式,建立乙個資料庫連線。

import pandas as pd

from sqlalchemy import create_engine

engin = create_engine(

'mysql+pymysql:'

)data = pd.read_sql_table(

'meal_order_detail1'

, con=engin)

read_sql_table只能夠讀取資料庫的某乙個**,不能實現查詢的操作。

pandas.read_sql_table(table_name, con, schema=none, index_col=none, coerce_float=true, columns=none)

read_sql_query則只能實現查詢操作,不能直接讀取資料庫中的某個表。

pandas.read_sql_query(sql, con, index_col=none, coerce_float=true)

read_sql是兩者的綜合,既能夠讀取資料庫中的某乙個表,也能夠實現查詢操作。

pandas.read_sql(sql, con, index_col=none, coerce_float=true, columns=none)

pandas三個資料庫資料讀取函式的引數幾乎完全一致,唯一的區別在於傳入的是語句還是表名。

1.2 資料庫資料儲存

資料庫資料讀取有三個函式,但資料儲存則只有乙個to_sql方法。

2.1 文字檔案讀取

文字檔案是一種由若干行字元構成的計算機檔案,它是一種典型的順序檔案。

csv是一種逗號分隔的檔案格式,因為其分隔符不一定是逗號,又被稱為字元分隔檔案,檔案以純文字形式儲存**資料(數字和文字)。

使用read_table來讀取文字檔案。

pandas.read_table(filepath_or_buffer, sep=』\t』, header=』infer』, names=none, index_col=none, dtype=none, engine=none, nrows=none)

使用read_csv函式來讀取csv檔案。

pandas.read_csv(filepath_or_buffer, sep=』,』, header=』infer』, names=none, index_col=none, dtype=none, engine=none, nrows=none)

read_table和read_csv常用引數及其說明:

read_table和read_csv函式中的sep引數是指定文字的分隔符的,如果分隔符指定錯誤,在讀取資料的時候,每一行資料將連成一片。

header引數是用來指定列名的,如果是none則會新增乙個預設的列名。

encoding代表檔案的編碼格式,常用的編碼有utf-8、utf-16、gbk、gb2312、gb18030等。如果編碼指定錯誤資料將無法讀取,ipython直譯器會報解析錯誤。

2.2 文字檔案儲存

文字檔案的儲存和讀取類似,結構化資料可以通過pandas中的to_csv函式實現以csv檔案格式儲存檔案。

3.1 excel檔案讀取

pandas提供了read_excel函式來讀取「xls」「xlsx」兩種excel檔案。

3.2 excel檔案儲存

將檔案儲存為excel檔案,可以使用to_excel方法。其語法格式如下:

dataframe.to_excel(excel_writer=none, sheetname=none』, na_rep=」, header=true, index=true, index_label=none, mode=』w』, encoding=none)

to_csv方法的常用引數基本一致,區別之處在於:指定儲存檔案的檔案路徑引數名稱為excel_writer,並且沒有sep引數,增加了乙個sheetnames引數用來指定儲存的excel sheet的名稱,預設為sheet1。

with pd.excelwriter(

'./tmp/temp.xlsx'

)as w:

data.to_excel(w, sheet_name=

'a')

data.to_excel(w, sheet_name=

'b')

Python之資料分析(寶可夢資料分析)

在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...

python資料分析之Numpy

numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...

Python 資料分析之scipy

scipy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分,引數分...