概率密度分布曲線表示式為:
f (x
)=12
πσex
p−(x
−μ)2
2σ2f(x)=\fracσ}exp^}
f(x)=2
πσ1
exp
−2σ2
(x−μ
)2下面以房屋的評分系統資料作為說明,提取碼:lyhx
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcparams['font.sans-serif']=['simhei']
plt.rcparams['axes.unicode_minus'] = false
讀取資料:
d = pd.read_csv("~\kingcountryhomeprice\\train.csv")
設定分箱的數目:
bins_num = 20
畫出頻數圖:
plt.hist(x = d['rating'], bins=bins_num, edgecolor='black')
plt.title('房屋評分系統對房屋的總體評分')
plt.show()
基本資訊描述:
# 觀察的describe
print('--------基本資訊------')
print(d['rating'].describe())
理論散點和實際正態分佈曲線圖:
mean_rating = 7.664
sigma = np.std(d['rating'])
描繪正態分佈曲線:
# 描繪正態分佈曲線
def normfun(x, mu, sigma):
pdf = np.exp(-(x-mu)**2/(2*sigma**2))/(sigma*np.sqrt(2*np.pi))
return pdf
對打分的頻數對應排布和進行排序
y_scatter =
for i in d['rating'].unique():
x_scatter = list(d['rating'].unique())
x = np.arange(3, 13, 0.0001) # 步長越小,生成的數目就越大
從上圖看,資料是不符合正態分佈的,但為了更好地分析結果,我們還要用累計分布圖和qq圖進行檢驗畫累計分布圖:
churn_data = pd.dataframe([x_scatter, y_scatter])
# 對資料進行轉置
churn_data = churn_data.t
churn_data.columns = ['value', 'prob']
# 按照數值大小進行排序,然後求出累積圖
觀察累計分布曲線圖,會發現資料也不嚴格的符合正態分佈的累計分布圖qq圖
由影象可知,資料概率分布曲線和實際分布點偏離嚴重,接著進行[k-s][2]p值檢驗
from scipy import stats
import numpy as np
stats.kstest(churn_data['prob'], 'norm', (mean_rating, sigma))
# 最後得到檢驗p值小於,排除h1假設,樣本資料不符合正態分佈
kstestresult(statistic=0.9999999996682792, pvalue=1.0703583290996503e-104)
最後的p值遠遠小於0.05,我們可以拒絕原假設。
何為數學模型
當我們考察乙個物理問題的解答時,十有 能夠就其中科學貢獻部分和數學貢獻部分劃出一道 清晰的界線。科學家在觀察和實驗的基礎上,作一 些簡潔性與解釋有效性的一般性考慮,建立一種理 論。數學家,或者做數學的科學家,則研究理論的 純粹邏輯結果。有時候,這些情形是常規計算的結 果,常規計算所預言的現象正是理論...
數學模型型別
線性規劃,非線性規劃,整數規劃,多目標規劃,動態規劃 層次分析法,模糊綜合評價,熵值法,topsis法,資料報絡分析,秩和比法,灰色關聯分析 回歸擬合,灰色 馬爾可夫 時間序列分析 微分方程模型,差分方程模型,元胞自動機,排隊論,蒙特卡羅隨機模擬 最短路徑,最小生成樹,最小費用最大流,指派問題,旅行...
數學模型 稱重問題
兩類稱重問題 一 給定砝碼,可以稱多少種不同的質量。二 怎麼安排使得可以稱重的次數最少。一 砝碼個數 用天平稱量物體質量,方法是1.乙個秤盤放物體,另乙個秤盤放砝碼。這對應著二進位制思想。2.乙個秤盤放物體,兩個秤盤都可以放砝碼,二者的差對應著物品質量。這對應著三進製的思想。1.二進位制思想 將稱量...