資料的回歸與分類分析

2021-10-22 17:14:05 字數 2228 閱讀 8449

任務要求:

線性回歸練習。「父親高則兒子高,父親矮則兒子矮」(即父親與兒子身高相關,且為正相關)、「母高高一窩,父高高乙個」(即母親的身高比父親的身高對子女的影響更大)的習俗傳說是否成立?請在「父母子女身高」資料集(高爾頓資料集)基礎上利用線性回歸做出科學分析。

1)選取父子身高資料為x-y,用excel計算線性回歸方程和相關係數、方差、p值等,判斷回歸方程是否成立。 現在如果有乙個新家庭的資料,已知父親身高75英吋,請測算兒子的身高為多少?

2)選取母子身高資料為x-y,用excel計算線性回歸方程和相關係數、方差、p值等,判斷回歸方程是否成立。

3)根據以上資料,闡明你對習俗說法是否正確的分析。

4)你能用多元線性回歸方法,計算出父親、母親與兒子身高的回歸方程嗎?

2. 線性回歸方法的有效性判別。 針對「anscombe四重奏」資料集,用excel對四組資料進行線性回歸分析,判斷其中哪些回歸方程是成立的,哪些不成立?不成立的應該如何解決?

1.1從給出的excel資料表中篩選出我們需要的父子的身高資料

先刪選出所有兒子的身高資料

然後每乙個家庭保留一行資料(刪掉重複的家庭編號)

資料-》刪除重複項

1.2進行線性分析

1.3得出線性回歸分析的結果

1.4資料分析

通過上面的公式y=0.241x+53.34,發現當父親身高每增加1個單位,其兒子的身高增加0.241個單位。

相關係數r平方計算的結果為0.9086,父親身高與兒子身高的線性相關性很強。通過方差分析的**可以看出f>f表,說明資料存在顯著差異。p值遠小於0.01,說明得到的回歸方程是可靠的。

由線性回歸函式可知,當父親身高為75英吋時,兒子的身高為71.415英吋。

以上刪選資料的方式以及進行線性回歸分析的方式跟上面差不多

線性回歸分析結果:

資料分析:

通過上面的公式y=-0.0082x+71.007,發現當母親身高每增加1個單位,其兒子的身高增加-0.0082個單位。

相關係數r平方計算的結果為0.003,母親身高與兒子身高的線性相關性較弱。通過方差分析的**可以看出f>f表,說明資料存在顯著差異。p值遠小於0.01,說明得到的回歸方程是可靠的。

由此說明,父子的身高是有一定關係的。

第乙個資料集:

從圖中可以看出線性並不是很能夠表現原始資料的乙個變化趨勢,所有該線性回歸方程不成立。通過採用其他的回歸曲線來測試,發現對於6次的多項式的回歸方程來說,會比線性回歸方程更好表現資料的變化趨勢。

第二個資料集:

可以看出線性並不是很能夠表現原始資料的乙個變化趨勢,所有該線性回歸方程不成立。通過採用其他的回歸曲線來測試,發現對於2次的多項式的回歸方程來說,會比線性回歸方程更好表現資料的變化趨勢。

第三個資料集:

可以看出,這條直線可以很好的擬合這個資料集,只是有少數乙個一兩個點有偏差,這是正常的。

第四個資料集:

可以看出,這條直線並不能擬合資料集,故線性回歸方程不成立。可採用其他的函式來進行擬合。

分類與回歸

分類與回歸問題 在用dbn 作手寫體識別實驗的時候,hinton 2006 年發表的 a fast learning algorithm for deep belief nets 所對應的 裡面用到 softmax 進行多分類。現就所查的資料和自己所理解的,整理這篇 blog softmax回歸模型...

分類與回歸

分類 classification 與回歸 regression 的區別在於輸出變數的型別。通俗理解,定量輸出稱為回歸,或者說是連續變數 定性輸出稱為分類,或者說是離散變數 回歸問題的 結果是連續的,通常是用來 乙個值,如 房價 未來的天氣情況等等。乙個比較常見的回歸演算法是線性回歸演算法 lr,l...

分類與回歸的區別

在資料探勘 人工智慧等領域中存在兩個 分類和回歸。單說分類很容易理解,但想到回歸就容易分不清晰,那麼這兩者到底有什麼區別和聯絡呢?下面簡單介紹下我的理解。其實 回歸問題和分類問題的本質一樣,都是針對乙個輸入做出乙個輸出 其區別在於 輸出變數的型別。分類問題是指,給定乙個新的模式,根據訓練集推斷它所對...