《商務與經濟統計》Python實現筆記(一)

2021-10-04 09:58:40 字數 1747 閱讀 3276

import pandas as pd

import numpy as np

from scipy import stats

# 傳資料

data = pd.read_excel(r"c:\users\liuhao\desktop\python_work\python資料分析與挖掘實戰\chapter8\test\data\data.xls")

d1 = data.iloc[:,:1]

d2 = data.iloc[:,1:2]

print(stats.ttest_ind(d1,d2,equal_val=true))

#傳樣本引數

from scipy.stats import ttest_ind_from_stats

ttest_ind_from_stats(mean1=325, std1=40, nobs1=12,

mean2=286, std2=44, nobs2=12)

#返回雙尾p值

# 方差齊性檢測

d1 = data.iloc[:,:1].values.t

d2 = data.iloc[:,1:2].values.t

d3 = pd.series(d1[0]) # levene函式傳遞的引數為一維陣列,需要進行轉換

d4 = pd.series(d2[0])

print(stats.levene(d3,d4))

#p值大於顯著水平則具有方差齊性

#如果兩總體不具有方差齊性,需要將equal_val引數設定為「false」

from scipy.stats import ttest_rel

import numpy as np

d1 = np.array([6,5,7,6,6,6])

d2 = np.array([5.4,5.2,6.5,5.9,6,5.8])

ttest_rel(d1,d2) #返回雙尾p值

from scipy import stats

stats.binom_test(101, n=400, p=0.2, alternative='greater')#事件發生的頻率實為100

二項式分布是一種離散分布,如果你想測試p(x>=n),就必須將它更改為p(x>n+1)

import numpy as np

from scipy import stats

#自定義函式計算p值

def binomtest_p(x, p, n):

"""x:事件發生的次數

n:樣本量

p:假設檢驗的概率

return:返回單尾p值

"""p_success = x/n

z = (p_success - p)/np.sqrt(p*(1-p)/n)

p_value = stats.norm.sf(z)

return (z,p_value)

from scipy import stats

import numpy as np

def test(n1,p1,n2,p2):

p = (n1*p1+n2*p2)/(n1+n2)

z = (p1-p2)/np.sqrt(p*(1-p)*((1/n1)+(1/n2)))

p_value = stats.norm.sf(z)

return (z,p_value)

《商務與經濟統計》學習筆記(三)

有時候資料集中會包含乙個或多個異常大或小的觀測值,這些極端值稱為異常值。標準化數值 z 分數 可以用來確認異常值。什麼是 z 分數 利用平均數和標準差,我們可以確定任何觀察值的相對位置。任何觀測值的z 分數都被認為是對資料集中觀測值相對位置的量度。計算公式為 z i xi x s.z x bar x...

概率統計 商務與經濟統計知識點總結 Part 3

4月半啦!感覺一步一步的學習比較的踏實,希望好事兒會一件一件來的。別灰心!還有就是晚上早點睡。這一章節呢,對應第五章的離散型概率分布,並且其中包含最最重要的概率分布正態分佈,很多問題都是建立在這個正態性假設上的。對於連續型變數來說,最重要的概念是概率密度函式。下面就列除幾個最重要的分布。均勻概率分布...

統計文章詞頻(python實現)

統計出文章重複詞語是進行文字分析的重要一步,從詞頻能夠概要的分析文章內容。2.建立用於詞頻計算的空字典 3.對文字的每一行計算詞頻 4.從字典中獲取資料對到列表中 5.對列表中的資料交換位置,並排序 6.輸出結果 2.網上下來的英文文章可能有一些不是utf 8編碼,並且文章中有一些字元包含一些格式符...