Numpy基礎及基本應用

2021-10-05 16:44:35 字數 1868 閱讀 8150

資料處理的一般流程

資料收集→資料預處理→資料處理→資料展示

資料收集方法:網路爬蟲、公開資料集、其他途徑收集的資料

預處理方法:歸一化、二值化、維度變換、去重、無效資料過濾

資料處理方法:資料排序、資料查詢、資料統計分析

資料展示方法:列表、圖表、動態互動圖形

安裝numpy

windows:pip install numpy

mac:pip3 install numpy

匯入numpy模組

import numpy as np

建立乙個一維ndarray陣列

#python_list=[1,2,3,4]

#ndarray=np.array(python_list)

data=np.array([1,2,3,4,5])

建立乙個二維ndarray陣列

data=np.array([[1,2],[3,4,5]])

判斷ndarry的維度

print(data.ndim)

了解ndarry各維度的長度

print(data.shape)

建立乙個全是0的陣列

data=np.zeros(10)

建立乙個全是1的二維陣列

data=np.ones((3,10))

#多維陣列的各維長度要用元組表示

產生乙個0到n-1的陣列

data=np.arange(n)

獲取陣列中每個數字(索引)

一維:data[5]

二維:data[0][1]/data[0,1]

獲取陣列中的某幾個數字(切片)

data_slice=data[3:6]

data_slice[2]=100

#切片得到的是原始資料,任何修改都會反映到原始資料

#可以做成副本,不影響原始資料 data_slice[3:6].copy()

變換陣列的維度

data.reshape((2,5))

矩陣的轉置

data.t

對每個元素求平方根

np.sqrt(data)

常用方法

abs 計算絕對值

sqrt 計算平方根

square 計算平方

exp 計算指數e^x

sign 計算正負號:1、0、-1

ceil 計算大於等於該元素的最小元素

floor 計算小於等於該元素的最大整數

isnan 計算哪些元素是非數字

將兩個陣列相加

data1+data2/np.add(data1,data2)(兩兩對應相加)

兩個陣列常用方法

add 計算兩個陣列之和

subtract 從第乙個陣列減去第二個陣列

multiply 計算兩個陣列元素的乘積

divide 從第乙個陣列元素除以第二個陣列元素

power 第乙個陣列元素a,第二個陣列元素b,計算a^b

fmax 計算兩個元素各個位置上更大的那乙個

fmin 計算兩個元素各個位置上更小的那乙個

求和data.sum()

求平均值

data.mean()

求標準差

data.std()

計算最大或最小值 max、min

計算最大值和最小值所在位置 argmax、argmin

陣列的排序

data.sort() #從小到大,不需要賦值

讀取txt檔案

data=np.genfromtxt(『data.txt』,delimiter=』,』) #delimiter=』,'表示分割符號為,

#數字表示為浮點數,將其轉換為整數data.astype(int)

Hive簡介及基本應用

hadoop是乙個開源框架來儲存和處理大型資料在分布式環境中。它包含兩個模組,乙個是mapreduce,另外乙個是hadoop分布式檔案系統 hdfs hive作為構建在hadoop之上的資料倉儲,它提供了一系列的工具,可以用來進行資料提取轉化載入 etl 這是一種可以儲存 查詢和分析儲存在hado...

鏈式儲存棧及基本應用

實驗二 棧 佇列 實驗學時 學時 背景知識 入棧 出棧,入隊 出隊。目的要求 1 掌握棧 佇列的思想及其儲存實現。2 掌握棧 佇列的常見演算法的程式實現。實驗內容 1 採用鏈式儲存實現棧的初始化 入棧 出棧操作。2 採用順序儲存實現棧的初始化 入棧 出棧操作。3 採用鏈式儲存實現佇列的初始化 入隊 ...

Zookeeper 初步認識及基本應用

初步認識zookeeper zookeeper是乙個開源的分布式協調服務,是由雅虎建立的,基於google chubby。基於google chubby的開源實現。zookeeper的設計目的是將那些複雜且容易出錯的分布式一致性服務封裝起來。zookeeper 是什麼 分布式資料一致性解決方案 zo...