檢驗變數之間的關係而不是群體之間的差異; 只檢驗兩個變數之間的關係;所要應用的合適的檢驗統計是相關係數的t檢驗。例項:婚姻質量和父母-子女關係水平--之間關係的檢驗。零假設,沒有關係;研究假設,存在關係。顯著水平設定為.05。
import scipy.stats as stats
#婚姻質量
x=[76,81,78,76,76,78,76,78,98,88,76,66,44,67,65,59,87,77,79,85,68,76,77,98,99,98,87,67,78]
#父母-子女關係 水平
y=[43,33,23,34,31,51,56,43,44,45,32,33,28,39,31,38,21,27,43,46,41,41,48,56,55,45,68,54,33]
r, p=stats.pearsonr(x,y)
print r
print p
輸出0.393418620974
0.0347359313295
計算得到 r=0.393 p=0.034,說明兩個變數之間的關係是由於隨機因素引起的可能性小於5%,因此認為兩個變數之間的關係是顯著的。
估計是以過去的結果估計未來結果的活動,比如用高中的平均成績估計大學的平均成績。要進行這樣的估計就必須建立回歸等式(regression equation),並建立回歸線(regression line)。立回歸線也稱作最優擬合線(line of best fit)。用x表示高中平均成績,用y表示大學成績,這就是變數y對變數x的回歸,即y依據x被估計。每乙個具體的資料點和回歸線的距離就是估計誤差(error in prediction)。給定了回歸線,就可以用回歸線來估計任何值。回歸線的一般公式:
python**,分為三部分,1)呼叫stats.lintegress(x,y)得到斜率和截距,2)定義回歸函式, 3)用np.linspace生成xdata, 然後用plt繪圖。
import numpy as np
import matplotlib.pylab as plt
from scipy import stats
x = [3.5, 2.5, 4.0, 3.8, 2.8, 1.9, 3.2, 3.7, 2.7, 3.3] #高中平均成績
y = [3.3, 2.2, 3.5, 2.7, 3.5, 2.0, 3.1, 3.4, 1.9, 3.7] #大學平均成績
slope, intercept, r_value, p_value, std_err = stats.linregress(x,y)
slope = round(slope,3)
intercept = round(intercept,3)
print slope, intercept
def f(x, a, b):
return a + b*x
xdata = np.linspace(1, 5, 20)
plt.grid(true)
plt.xlabel('x axis')
plt.ylabel('y axis')
plt.text(2.5, 4.0, r'$y = ' + str(intercept) + ' + ' + str(slope) +'*x$', fontsize=18)
plt.plot(xdata, f(xdata, intercept,slope), 'b', linewidth=1)
plt.plot(x,y,'ro')
plt.show()
輸出
引數檢驗假定所使用的資料集有確定的特徵(總體分布已知),並且樣本大可以代表總體,如果不滿足上述假定 ,則需要使用非引數檢驗(nonparametric tests)方法。卡方檢驗(chi square test)是常用的非引數檢驗之一。可以用於確定在頻數分布中觀察到的結果是否就是你隨機預期的結果。如問卷調查中對教育券的支援情況,分為贊同、中立、反對三種選擇。
卡方值的計算
然後查表得到p值。用scipy.stats.chisquare(f_obs, f_exp=none, ddof=0, axis=0)可以很方便地計算。
python**
from scipy.stats import chisquare
f_obs = [23, 17, 50] #贊同、中立、反對
f_exp = [30, 30, 30]
chisq, p = chisquare(f_obs, f_exp)
print chisq
print p
輸出
20.6
3.36330951857e-05
計算結果p值小於.000,這說明,這三個分類的頻數相等時非常不可能的。
《愛上統計學》書上基本的內容就學完了,書上介紹的多元方差分析、重複測量的方差分析等其他高階內容等遇到再學習吧。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學基礎 三
分類資料 眾數 出現最多的變數值,峰值 順序資料 中位數 位置在中間的變數值 位置 分位數 上四分位位置 假設目前有9個資料,則下四分位 9 4 2.25,資料位於第二位和第三位資料的25 的位置。假設目前有9個資料,則上四分位 3 9 4 6.75,資料位於第六位和第七位資料的75 位置。數值型資...
統計學習基礎
腦圖檢視效果更好 包括監督學習 非監督學習 半監督學習 強化學習等 1 有限訓練資料集 2 學習模型集合 所有可能模型的假設空間 3 確定學習策略 模型選擇準則 4 學習演算法 求解最優模型 5 使用模型對資料進行 或分析概率模型 由條件概率分布p x,y 表示 非概率模型 由決策函式y f x 表...