資料分析基本概念
明確思路→資料收集《分布式爬蟲實戰》→資料處理→資料分析→資料展現
常用的收集途徑:
公開資訊,外部資料庫,自有資料庫,調查問卷,客戶資料
資料清洗:
可讀性,完整性,唯一性,權威性及合法性
常見的資料型別
1,類別型資料
(1)取值種類
(2)每類取值的分布
2,數值型變數
(1)極值和分位點
(2)均值和標準差
(3)變數間相關性
3,通用資料描述
(1)缺失值
(2)重複性
python3新特性
字串格式化輸出
新增format()方式
dict型別變化
刪除之前的iterkeys(),itervalues(),iteritems()改為keys(),values(),items().
numpy(numerical python)
numpy 是乙個執行速度非常快的數學庫,主要用於陣列計算,包含:
1,高效能科學計算和資料分析的基礎包,提供多維陣列物件
2,ndarray,多維陣列(矩陣),具有向量計算能力,快速節省空間
3,矩陣運算,無需迴圈,可完成類似matlab中的向量計算
4,線性代數,隨機數生成
5,廣播功能函式
6,整合 c/c++/fortran **的工具
import numpy as np
scipy
1,在nnmpy庫的基礎上增加了眾多的數學,科學及工程常用的庫函式
2,線性代數,常微分方程求解,訊號處理,影象處理,稀疏矩陣
3,import scipy as sp
ndarry,n維陣列物件
所有元素必須是相同型別
ndim
屬性,維度個數
shape屬性,各維度大小
dtype屬性,資料型別
建立ndarry
np.array(collection),collection為序列型物件(list).巢狀序列(list of list)
np,zeros,np.ones,np.empty指定大小的全0或者全1陣列
注意:第乙個引數是元祖,用來指定大小,如(3,4)
empty不是總是返回全0,有時返回的是未初始的隨機值
索引與切片
一維陣列的索引與python的列表索引功能相似
多維陣列的索引
arr[r1:r2,c1:c2]
arr[1,1]等價arr[1][1]
[:]代表某個維度的資料
條件索引
不耳墜多維陣列 arr[condition] condition 可以是多個條件組合
注意,多個條件組合要使用 & | ,而不是and or
維數轉換
轉置np.where
向量版本的三元表示式: x if condition else y
np.where(condition,x,y)
常用的統計方法
np.mean, np.sum,
np.max, np.min
np,std, np.var
np.argmax, np.argmin
名稱
描述
object
陣列或巢狀的數列
dtype
陣列元素的資料型別,可選
copy
物件是否需要複製,可選
order
建立陣列的樣式,c為行方向,f為列方向,a為任意方向(預設)
subok
預設返回乙個與基類型別一致的陣列
ndmin
指定生成陣列的最小維度
ndarray 物件由計算機記憶體的連續一維部分組成,並結合索引模式,將每個元素對映到記憶體塊中的乙個位置。記憶體塊以行順序(c樣式)或列順序(fortran或matlab風格,即前述的f樣式)來儲存元素。
注意多維的話要指定統計的維度,否則預設是全部維度上做統計
廣播(broadcast)是 numpy 對不同形狀(shape)的陣列進行數值計算的方式, 對陣列的算術運算通常在相應的元素上進行。
如果兩個陣列 a 和 b 形狀相同,即滿足
a.shape == b.shape,那麼 a*b 的結果就是 a 與 b 陣列對應位相乘。這要求維數相同,且各維度的長度相同。
廣播的規則:
讓所有輸入陣列都向其中形狀最長的陣列看齊,形狀中不足的部分都通過在前面加 1 補齊。
輸出陣列的形狀是輸入陣列形狀的各個維度上的最大值。
如果輸入陣列的某個維度和輸出陣列的對應維度的長度相同或者其長度為 1 時,這個陣列能夠用來計算,否則出錯。
當輸入陣列的某個維度的長度為 1 時,沿著此維度運算時都用此維度上的第一組值。
簡單理解:對兩個陣列,分別比較他們的每乙個維度(若其中乙個陣列沒有當前維度則忽略),滿足:
陣列擁有相同形狀。
當前維度的值相等。
當前維度的值有乙個是 1。
若條件不滿足,丟擲
「valueerror: frames are not aligned」 異常。
資料分析之numpy常用知識點 難點梳理
一 與random有關的一些函式的區別,首先匯入numpyimport numpy as npnp.random.randint low,high none,size none,dtype l 從low到high的範圍隨機取整數填充多維陣列,size用於指定陣列的形狀,dtype預設為長整型 np....
Chipotle資料分析 知識點彙總
一 資料集資訊 import pandas as pd import numpy as np import matplotlib.pyplot as plt chipo pd.read csv users desktop 十套python練習 exercise data chipotle.tsv s...
numpy知識點補充
import numpy as np a np.zeros 2,2 建立2x2的全零矩陣 print a b np.ones 1,2 建立1x2的全一矩陣 print b c np.full 2,2 7 建立2x2的全為7的矩陣 print c d np.eye 2 建立全1的2x2對角矩陣 pri...