爬蟲 資料分析 numpy

2022-03-05 13:23:07 字數 3279 閱讀 4661

資料分析:是把隱藏在一些看似雜亂無章的資料背後的資訊提煉出來,總結出所研究物件的內在規律

資料分析三劍客:numpy,pandas,matplotlib

numpy(numerical python) 是 python 語言的乙個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。

# 建立ndarry

# 建立一維陣列

import numpy

asnp

# np.array([

1,2,3

])# 建立二維陣列

np.array([[

1,2,3],[4,5,6

]])np.array([[

1,2,3.3],[4,5,6

]])numpy預設ndarray的所有元素的型別是相同的

如果傳進來的列表中包含不同的型別,則統一為同一型別,優先順序:str>float>int

# np.linspace(start, stop, num=50, endpoint=true, retstep=false, dtype=none) 等差數列

np.linspace(

0,100,num=20

)# np.arange([start, ]stop, [step, ]dtype=none)

np.arange(

0,100,step=10

)# np.random.randint(low, high=none, size=none, dtype='l'

)np.random.seed(

10) #隨機因子/時間種子

np.random.randint(

0,100,size=(4,3))

4個必記引數: ndim:維度            shape:形狀          (各維度的長度) size:總長度          dtype:元素型別

img_arr.ndim

img_arr.shape

img_arr.size

img_arr.dtype

type(img_arr)

# 根據索引修改資料

arr[[

1,2]]

arr[1]

arr[[

1,2],[1,2

]]arr[

1,4]

行 列

# 切片

# 行# arr[

0:2]

# 列# arr[:,

0:2] #arr[hang,lie]

# arr[

0:2,0:2

]# 資料反轉

# 陣列按照行反轉

# arr[: : -1

]# 陣列按照列反轉

# arr[:,: : -1

]# 全部反轉

arr[::-1,::-1

]# 將進行倒置操作

# plt.imshow(img_arr[::-1,::-1

])# 裁剪

# plt.imshow(img_arr[

115:340,145:580,:])

使用arr.reshape()函式,注意引數是乙個tuple!

# 變形

# 一維陣列變多維陣列,多維陣列變一維陣列

arr=np.random.randint(1,100,size=(5,6

))arr

# arr.reshape(

2,15,1

)# arr.reshape(

2,-1

)# l=arr.reshape(15,-1)

一維,二維,多維陣列的級聯,實際操作中級聯多為二維陣列

合併兩張**

np.concatenate((arr,arr),axis=0) #axis=0

列 1行

arr_3 = np.concatenate((img_arr,img_arr,img_arr),axis=1

)arr_9 = np.concatenate((arr_3,arr_3,arr_3),axis=0

)plt.imshow(arr_9)

求和 np.sum    arr.sum(axis=1)

最大最小值:np.max/ np.min

平均值:np.mean()

其他聚合操作

function name    nan-safe version    description

np.sum np.nansum compute sum of elements

np.prod np.nanprod compute product of elements

np.mean np.nanmean compute mean of elements

np.std np.nanstd compute standard deviation

np.var np.nanvar compute variance

np.min np.nanmin find minimum value

np.max np.nanmax find maximum value

np.argmin np.nanargmin find index of minimum value

np.argmax np.nanargmax find index of maximum value

np.median np.nanmedian compute median of elements

np.percentile np.nanpercentile compute rank-based statistics of elements

np.any n/a evaluate whether any elements are true

np.all n/a evaluate whether all elements are true

np.power 冪運算

np.sort()與ndarray.sort()都可以,但有區別

numpy資料分析

2020 11 2 import array arr array.array i list range 10 i表示整型,生成序列後不能改變資料型別 多維陣列ndarray方便處理多維度運算,運算效率高 nparr np.array list range 10 修改值,浮點數取整數段 nparr 2...

資料分析 Numpy

什麼是numpy numpy這個詞 於兩個單詞 numerical和python。numpy是python中的乙個運算速度非常快的乙個數學庫,它非常重視陣列,很多的資料科學的包都是依賴於numpy的。它允許你在python中進行向量和矩陣計算,並且由於許多底層函式實際上是用c編寫的,因此你可以體驗在...

資料分析 numpy

主要內容 1 資料分析 a 概念 是把隱藏在一些看似雜亂無章的資料背後資訊提煉出來,總結出所研究物件的內在規律.b 三劍客 numpy pandas matplotlib 2 numpy 是python語言的乙個擴充套件程式庫,支援大量的緯度陣列與矩陣運算,此外也針對陣列運算提供大量的數字函式庫.a...