資料處理的一般流程
資料收集→資料預處理→資料處理→資料展示
資料收集方法:網路爬蟲、公開資料集、其他途徑收集的資料
預處理方法:歸一化、二值化、維度變換、去重、無效資料過濾
資料處理方法:資料排序、資料查詢、資料統計分析
資料展示方法:列表、圖表、動態互動圖形
安裝numpy
windows:pip install numpy
mac:pip3 install numpy
匯入numpy模組
import numpy as np
建立乙個一維ndarray陣列
#python_list=[1,2,3,4]
#ndarray=np.array(python_list)
data=np.array([1,2,3,4,5])
建立乙個二維ndarray陣列
data=np.array([[1,2],[3,4,5]])
判斷ndarry的維度
print(data.ndim)
了解ndarry各維度的長度
print(data.shape)
建立乙個全是0的陣列
data=np.zeros(10)
建立乙個全是1的二維陣列
data=np.ones((3,10))
#多維陣列的各維長度要用元組表示
產生乙個0到n-1的陣列
data=np.arange(n)
獲取陣列中每個數字(索引)
一維:data[5]
二維:data[0][1]/data[0,1]
獲取陣列中的某幾個數字(切片)
data_slice=data[3:6]
data_slice[2]=100
#切片得到的是原始資料,任何修改都會反映到原始資料
#可以做成副本,不影響原始資料 data_slice[3:6].copy()
變換陣列的維度
data.reshape((2,5))
矩陣的轉置
data.t
對每個元素求平方根
np.sqrt(data)
常用方法
abs 計算絕對值
sqrt 計算平方根
square 計算平方
exp 計算指數e^x
sign 計算正負號:1、0、-1
ceil 計算大於等於該元素的最小元素
floor 計算小於等於該元素的最大整數
isnan 計算哪些元素是非數字
將兩個陣列相加
data1+data2/np.add(data1,data2)(兩兩對應相加)
兩個陣列常用方法
add 計算兩個陣列之和
subtract 從第乙個陣列減去第二個陣列
multiply 計算兩個陣列元素的乘積
divide 從第乙個陣列元素除以第二個陣列元素
power 第乙個陣列元素a,第二個陣列元素b,計算a^b
fmax 計算兩個元素各個位置上更大的那乙個
fmin 計算兩個元素各個位置上更小的那乙個
求和data.sum()
求平均值
data.mean()
求標準差
data.std()
計算最大或最小值 max、min
計算最大值和最小值所在位置 argmax、argmin
陣列的排序
data.sort() #從小到大,不需要賦值
讀取txt檔案
data=np.genfromtxt(『data.txt』,delimiter=』,』) #delimiter=』,'表示分割符號為,
#數字表示為浮點數,將其轉換為整數data.astype(int)
Hive簡介及基本應用
hadoop是乙個開源框架來儲存和處理大型資料在分布式環境中。它包含兩個模組,乙個是mapreduce,另外乙個是hadoop分布式檔案系統 hdfs hive作為構建在hadoop之上的資料倉儲,它提供了一系列的工具,可以用來進行資料提取轉化載入 etl 這是一種可以儲存 查詢和分析儲存在hado...
鏈式儲存棧及基本應用
實驗二 棧 佇列 實驗學時 學時 背景知識 入棧 出棧,入隊 出隊。目的要求 1 掌握棧 佇列的思想及其儲存實現。2 掌握棧 佇列的常見演算法的程式實現。實驗內容 1 採用鏈式儲存實現棧的初始化 入棧 出棧操作。2 採用順序儲存實現棧的初始化 入棧 出棧操作。3 採用鏈式儲存實現佇列的初始化 入隊 ...
Zookeeper 初步認識及基本應用
初步認識zookeeper zookeeper是乙個開源的分布式協調服務,是由雅虎建立的,基於google chubby。基於google chubby的開源實現。zookeeper的設計目的是將那些複雜且容易出錯的分布式一致性服務封裝起來。zookeeper 是什麼 分布式資料一致性解決方案 zo...