資料探索
2. 統計分析
抽樣2.2 點估計與置信區間
2.3 概率分布
2.4 檢驗
2.5 卡方檢驗
2.6 anova
2.7 ab測試
2.8 態分布
按資料型別選分析方式
3. 估計
se.mean(axis=1)
# 求行的均值
se.median(
)plt.vlines(se.mean(
),ymin=
0,ymax=
3,linewidth=5)
# 繪製均值垂直線
plt.vlines(se.median(
)ymin=
0,ymax=
3,linewidth=
3,color=
'red'
)# 繪製紅色中位數線
df[
'col'
].skew(
)# 大於0-右偏
峰度
import scipy.stats as stats
stats.kurtosis(資料集變數)
分布函式的生成自變數x
因變數y
檢驗方式
連續分類
方差分析
分類連續
方差分析
分類分類
卡方檢驗
連續連續
相關性分析
數值型別集
分類資料集
by 儒冠多誤身 2019/04/21
python資料分析專題 (15) 修改資料
上次內容介紹了pandas資料索引的數字索引和行列名的方法。邏輯值索引也是一種重要的方法。在資料排序和篩選中都要用到邏輯值索引。邏輯值索引 邏輯值包括true和false。將邏輯值放入行列中,遇到真值true則返回 false則跳過。不過邏輯值的數目要與行列數一致。邏輯值索引 x mtcars.il...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...
python資料分析
陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...