Numpy基礎及基本應用

資料處理的一般流程

資料收集→資料預處理→資料處理→資料展示

資料收集方法：網路爬蟲、公開資料集、其他途徑收集的資料

預處理方法：歸一化、二值化、維度變換、去重、無效資料過濾

資料處理方法：資料排序、資料查詢、資料統計分析

資料展示方法：列表、圖表、動態互動圖形

安裝numpy

windows：pip install numpy

mac：pip3 install numpy

匯入numpy模組

import numpy as np

建立乙個一維ndarray陣列

#python_list=[1,2,3,4]

#ndarray=np.array(python_list)

data=np.array([1,2,3,4,5])

建立乙個二維ndarray陣列

data=np.array([[1,2],[3,4,5]])

判斷ndarry的維度

print(data.ndim)

了解ndarry各維度的長度

print(data.shape)

建立乙個全是0的陣列

data=np.zeros(10)

建立乙個全是1的二維陣列

data=np.ones((3,10))

#多維陣列的各維長度要用元組表示

產生乙個0到n-1的陣列

data=np.arange(n)

獲取陣列中每個數字（索引）

一維：data[5]

二維：data[0][1]/data[0,1]

獲取陣列中的某幾個數字（切片）

data_slice=data[3:6]

data_slice[2]=100

#切片得到的是原始資料，任何修改都會反映到原始資料

#可以做成副本，不影響原始資料 data_slice[3:6].copy()

變換陣列的維度

data.reshape((2,5))

矩陣的轉置

data.t

對每個元素求平方根

np.sqrt(data)

常用方法

abs 計算絕對值

sqrt 計算平方根

square 計算平方

exp 計算指數e^x

sign 計算正負號：1、0、-1

ceil 計算大於等於該元素的最小元素

floor 計算小於等於該元素的最大整數

isnan 計算哪些元素是非數字

將兩個陣列相加

data1+data2/np.add(data1,data2)（兩兩對應相加）

兩個陣列常用方法

add 計算兩個陣列之和

subtract 從第乙個陣列減去第二個陣列

multiply 計算兩個陣列元素的乘積

divide 從第乙個陣列元素除以第二個陣列元素

power 第乙個陣列元素a，第二個陣列元素b，計算a^b

fmax 計算兩個元素各個位置上更大的那乙個

fmin 計算兩個元素各個位置上更小的那乙個

求和data.sum()

求平均值

data.mean()

求標準差

data.std()

計算最大或最小值 max、min

計算最大值和最小值所在位置 argmax、argmin

陣列的排序

data.sort() #從小到大，不需要賦值

讀取txt檔案

data=np.genfromtxt(『data.txt』,delimiter=』,』) #delimiter=』,'表示分割符號為,

#數字表示為浮點數，將其轉換為整數data.astype(int)

Hive簡介及基本應用

hadoop是乙個開源框架來儲存和處理大型資料在分布式環境中。它包含兩個模組，乙個是mapreduce，另外乙個是hadoop分布式檔案系統 hdfs hive作為構建在hadoop之上的資料倉儲，它提供了一系列的工具，可以用來進行資料提取轉化載入 etl 這是一種可以儲存查詢和分析儲存在hado...

鏈式儲存棧及基本應用

實驗二棧佇列實驗學時學時背景知識入棧出棧，入隊出隊。目的要求 1 掌握棧佇列的思想及其儲存實現。2 掌握棧佇列的常見演算法的程式實現。實驗內容 1 採用鏈式儲存實現棧的初始化入棧出棧操作。2 採用順序儲存實現棧的初始化入棧出棧操作。3 採用鏈式儲存實現佇列的初始化入隊 ...

Zookeeper 初步認識及基本應用

初步認識zookeeper zookeeper是乙個開源的分布式協調服務，是由雅虎建立的，基於google chubby。基於google chubby的開源實現。zookeeper的設計目的是將那些複雜且容易出錯的分布式一致性服務封裝起來。zookeeper 是什麼分布式資料一致性解決方案 zo...

Numpy基礎及基本應用

Hive簡介及基本應用

鏈式儲存棧及基本應用

Zookeeper 初步認識及基本應用

相關推薦