import pandas as pd
import numpy as np
from scipy import stats
# 傳資料
data = pd.read_excel(r"c:\users\liuhao\desktop\python_work\python資料分析與挖掘實戰\chapter8\test\data\data.xls")
d1 = data.iloc[:,:1]
d2 = data.iloc[:,1:2]
print(stats.ttest_ind(d1,d2,equal_val=true))
#傳樣本引數
from scipy.stats import ttest_ind_from_stats
ttest_ind_from_stats(mean1=325, std1=40, nobs1=12,
mean2=286, std2=44, nobs2=12)
#返回雙尾p值
# 方差齊性檢測
d1 = data.iloc[:,:1].values.t
d2 = data.iloc[:,1:2].values.t
d3 = pd.series(d1[0]) # levene函式傳遞的引數為一維陣列,需要進行轉換
d4 = pd.series(d2[0])
print(stats.levene(d3,d4))
#p值大於顯著水平則具有方差齊性
#如果兩總體不具有方差齊性,需要將equal_val引數設定為「false」
from scipy.stats import ttest_rel
import numpy as np
d1 = np.array([6,5,7,6,6,6])
d2 = np.array([5.4,5.2,6.5,5.9,6,5.8])
ttest_rel(d1,d2) #返回雙尾p值
from scipy import stats
stats.binom_test(101, n=400, p=0.2, alternative='greater')#事件發生的頻率實為100
二項式分布是一種離散分布,如果你想測試p(x>=n),就必須將它更改為p(x>n+1)
import numpy as np
from scipy import stats
#自定義函式計算p值
def binomtest_p(x, p, n):
"""x:事件發生的次數
n:樣本量
p:假設檢驗的概率
return:返回單尾p值
"""p_success = x/n
z = (p_success - p)/np.sqrt(p*(1-p)/n)
p_value = stats.norm.sf(z)
return (z,p_value)
from scipy import stats
import numpy as np
def test(n1,p1,n2,p2):
p = (n1*p1+n2*p2)/(n1+n2)
z = (p1-p2)/np.sqrt(p*(1-p)*((1/n1)+(1/n2)))
p_value = stats.norm.sf(z)
return (z,p_value)
《商務與經濟統計》學習筆記(三)
有時候資料集中會包含乙個或多個異常大或小的觀測值,這些極端值稱為異常值。標準化數值 z 分數 可以用來確認異常值。什麼是 z 分數 利用平均數和標準差,我們可以確定任何觀察值的相對位置。任何觀測值的z 分數都被認為是對資料集中觀測值相對位置的量度。計算公式為 z i xi x s.z x bar x...
概率統計 商務與經濟統計知識點總結 Part 3
4月半啦!感覺一步一步的學習比較的踏實,希望好事兒會一件一件來的。別灰心!還有就是晚上早點睡。這一章節呢,對應第五章的離散型概率分布,並且其中包含最最重要的概率分布正態分佈,很多問題都是建立在這個正態性假設上的。對於連續型變數來說,最重要的概念是概率密度函式。下面就列除幾個最重要的分布。均勻概率分布...
統計文章詞頻(python實現)
統計出文章重複詞語是進行文字分析的重要一步,從詞頻能夠概要的分析文章內容。2.建立用於詞頻計算的空字典 3.對文字的每一行計算詞頻 4.從字典中獲取資料對到列表中 5.對列表中的資料交換位置,並排序 6.輸出結果 2.網上下來的英文文章可能有一些不是utf 8編碼,並且文章中有一些字元包含一些格式符...