這些庫都是第三方庫,python自帶的標準庫中沒有,所以要先安裝才能使用:
第三方庫名稱
簡介numpy
提供陣列支援,以及相應的高效的處理函式
scipy
提供矩陣支援,以及矩陣相關的數值計算模組
matplotlib
強大的資料視覺化工具、繪相簿
pandas
強大、靈活的資料分析和探索工具
statsmodels
統計建模和計量經濟學,包括描述統計、統計模型估計和推斷
scikit_learn
支援回歸、分類、聚類等的強大的機器學習庫
keras
深度學習庫,用於建立神經網路以及深度學習模型
gensim
用來做文字主題模型的庫,文字挖掘可能用到
python並沒有提供陣列功能,雖然列表可以完成基本的資料功能,但它不是真正的陣列,而且在資料量較大的時候,使用列表的速度會讓人慢的難受。numpy提供了真正的陣列功能,以及對資料進行快速處理的函式。numpy還是很多更高的第三方庫的依賴庫。
numpy學習教程:numpy中文文件、易百教程——numpy教程、菜鳥教程——numpy教程
執行結果:#!/usr/bin/env python3
# -*- coding:utf-8 -*-
import numpy as np
a = np.array([2, 0, 1, 5]) # 建立乙個一維陣列
print(a) # 輸出一維陣列a:[2 0 1 5]
print(a[3]) # 輸出第四個元素:5
print(a[:3]) # 輸出前三個元素:[2 0 1]
print(a.min()) # 輸出最小值:0
a.sort() # 將a的元素從小到大排序,此操作會直接修改a,因此這時a變成了[0 1 2 5]
print(a)
b = [1, 2, 3] # 建立乙個列表
print(b) # 輸出列表:[1,2,3]
print(min(b)) # 輸出最小值:1
c = np.array([[1, 2, 3], [4, 5, 6]]) # 建立乙個二維陣列
print(c)
print(c * c) # 輸出陣列的平方陣
d = [[1, 2, 3], [4, 5, 6]]
print(d)
scipy提供了真正的矩陣,以及大量基於矩陣運算的物件和函式。[2 0 1 5]
5[2 0 1]
0[0 1 2 5]
[1, 2, 3]
1[[1 2 3]
[4 5 6]]
[[ 1 4 9]
[16 25 36]]
[[1, 2, 3], [4, 5, 6]]
scipy包含的功能有最優化、線性代數、積分、插值、擬合、特殊函式、快速傅利葉變換、訊號處理和影象處理、常微分方程求解和其他科學與工程常用的計算。
scipy依賴於numpy,因此安裝scipy之前要先安裝numpy。
學習教程參考:scipy學習教程
matplotlib是乙個繪相簿,用於資料的視覺化,它主要用於二維繪圖,也可以進行簡單的三維繪圖。
因為matplotlib預設的字型是英文本型,所以中文會無法正常顯示,解決的辦法是在作圖之前手動指定預設字型為中文字型,如黑體(simhei):
plt.rcparams['font.sans-serif'] = ['simhei'] # 修改matplotlib的預設字型為黑體,以正常顯示中文
另外,儲存作圖影象時,負號有可能顯示不正常,可通過以下**解決:
plt.rcparams['axes.unicode_miuus'] = false # 解決儲存影象時,負號(-)顯示為方塊的問題
小建議:有時間可以多去matplotlib提供的「畫廊」看看它做出來的漂亮效果(畫廊:
學習教程:numpy matplotlib庫
pandas是python下最強大的資料分析和探索工具。它包含高階的資料結構和精巧的工具,使得在python中處理資料非常快速和簡單。pandas構建在numpy之上,它使得以numpy為中心的應用很容易使用。
pandas的功能非常強大,支援類似於sql的資料增、刪、查、改,並且帶有豐富的資料處理函式;支援時間序列分析功能;支援靈活處理缺失資料等。可以閱讀pandas主要作者之一wes mckinney寫的《利用python進行資料分析》一書,學習更詳細的內容。
學習教程:pandas教程
MySQL資料庫一 相關概念
資料庫 database 是按照資料結構來組織 儲存和管理資料的倉庫。每個資料庫都有乙個或多個不同的 api 用於建立,訪問,管理,搜尋和複製所儲存的資料。我們也可以將資料儲存在檔案中,但是在檔案中讀寫資料速度相對較慢。所以,現在我們使用關係型資料庫管理系統 rdbms 來儲存和管理大資料量。所謂的...
python3資料分析之Numpy
ndarray 儲存風格 ndarray 相同型別 list 不同型別 並行化運算 ndarray支援向量化運算 底層語言 c語言,解除了gil 1.屬性 ndarray.shape 大小 幾行幾列 ndarray.ndim 維度 幾維 ndarray.size 多少個元素 ndarray.item...
做資料分析為何要學統計學(3) 相關性分析
相關性是量化不同因素間變動狀況一致程度的重要指標。在樣本資料降維 通過消元減少降低模型複雜度,提高模型泛化能力 缺失值估計 異常值修正方面發揮著極其重要的作用,是機器學習樣本資料預處理的核心工具。樣本因素之間相關程度的量化使用相關係數corr,這是乙個取之在 1,1 之間的數值型,corr的絕對值越...