資料探勘之回歸分析

2021-06-22 13:53:02 字數 2969 閱讀 5082

資料探勘之回歸分析綜述

史趙鋒(長春理工大學 

資訊與計算科學系)

摘要:資料探勘中回歸分析方法是建立複雜物件外特性模型的一類重要方法.此文對現有各種回歸方法進行了綜述.採用乙個統一的目標函式來解釋各種回歸方法,並以此為基礎,系統介紹了各種回歸分析方法(包括常見的主成分分析法和部分最小二乘法(pls))的意義、結構、演算法、特性及其相互關係.

,多元線性回歸,非線性回歸

引言:資料探勘(data mining)是從大量的、不完全的、有雜訊的、模糊的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需要應運而生發展起來的資料處理技術。是知識發現(knowledge discovery in database)的關鍵步驟。其中回歸分析就是資料探勘方法中統計方法演算法之一,它就是用回歸方程來表示變數間的數量關係

一.回歸分析的概念。

回歸分析

(regression analysis) ,

乙個統計**模型,用以描述和評估應變數與乙個或多個自變數之間的關係。

回歸分析是處理多變數間相關關係的一種數學方法。相關關係不同於函式關係,後者反映變數間的嚴格依存性,而前者則表現出一定程度的波動性或隨機性,對自變數的每一取值,因變數可以有多個數值與之相對應。在統計上研究相關關係可以運用回歸分析和相關分析(

correlation analysis)。

當自變數為非隨機變數、因變數為隨機變數時,分析它們的關係稱回歸分析;當兩者都是隨機變數時,稱為相關分析。回歸分析和相關分析往往不加區分。廣義上說,相關分析包括回歸分析,但嚴格地說。兩者是有區別的。具有相關關係的兩個變數ξ和

η,它們之間既存在著密切的關係,又不能由乙個變數的數值精確地求出另一變數的值。通常選定

ξ=x時

η的數學期望作為對應

ξ=x時

η的代表值,因為它反映

ξ=x條件下

η取值的平均水平。這樣的對應關係稱為回歸關係。根據回歸分析可以建立變數間的數學表示式,稱為回歸方程。回歸方程反映自變數在固定條件下因變數的平均狀態變化情況。相關分析是以某一指標來度量回歸方程所描述的各個變數間關係的密切程度。相關分析常用回歸分析來補充,兩者相輔相成。若通過相關分析顯示出變數間關係非常密切,則通過所建立的回歸方程可獲得相當準確的取值。

通過回歸分析可以解決以下問題:

1.可建立交量間的數學表示式

――通常稱為經驗公式。

2.利用概率統計基礎知識進行分析,從而可以判斷所建立的經驗公式的有效性。

3.進行因素分析,確定影響某一變數的若干變數(因素)中,何者為主要,何者為次要,以及它們之間的關係。

具有相關關係的變數之間雖然具有某種不確定性,但是,通過對現象的不斷觀察可以探索出它們之間的統計規律,這類統計規律稱為回歸關係。有關回歸關係的理論、計算和分析稱為回歸分析。

回歸分析方法被廣泛地用於解釋市場占有率、銷售額、品牌偏好及市場營銷效果。把兩個或兩個以上定距或定比例的數量關係用函式形勢表示出來,就是回歸分析要解決的問題。回歸分析是一種非常有用且靈活的分析方法,其作用主要表現在以下幾個方面:

(1) 

判別自變數是否能解釋因變數的顯著變化

----

關係是否存在;

(2) 

判別自變數能夠在多大程度上解釋因變數

----

關係的強度;

(3) 

判別關係的結構或形式

----

反映因變數和自變數之間相關的數學表示式;

(4) 

**自變數的值;

(5) 

當評價乙個特殊變數或一組變數對因變數的貢獻時,對其自變數進行控制。

第一步是確定要進行**的應變數。 然後,集中於說明變數,進行多元回歸分析。 多元回歸分析將給出應變數與說明變數之間的關係。 這一關係最後以公式(模型)形式給出,通過它**應變數的未來值。

回歸分析可以分為簡單線性回歸分析和多元線性回歸分析,非線性回歸資料分析。

(一)簡單線性回歸分析

僅有一自變數與一因變數,且其關係大致上可用一直線表示

如果發現因變數y和自變數x之間存在高度的正相關,可以確定一條直線的方程,使得所有的資料點盡可能接近這條擬合的直線。簡單回歸分析的模型可以用以下方程表示:

y = a + bx

其中:y為因變數,a為截距,b為相關係數,x為自變數。

(二)多元線性回歸分析

多元線性回歸是簡單線性回歸的推廣,指的是多個因變數對多個自變數的回歸。其中最常用的是只限於乙個因變數但有多個自變數的情況,也叫多重回歸。多重回歸的一般形式如下:

y = a + b1x1 + b2x2 + b3x3 +……+ bkxk

a代表截距, b1,b2,b3,……,bk為回歸係數。

(三)非線性回歸資料分析

對於線性回歸問題,樣本點落在空間中的一條直線上或該直線的附近,因此可以使用乙個線性函式表示自變數和因變數間的對應關係。然而在一些應用中,變數間的關係呈曲線形式,因此無法用線性函式表示自變數和因變數間的對應關係,而需使用非線性函式表示。

資料探勘中常用的一些非線性回歸模型,列出如下。

(1)漸漸回歸模型:

y=a+b*e(的-rx次方)+e

(2)二次曲線模型:

y=a+b1x+b2x(的2次方)+e

(3)雙曲線模型:

y=a+b/x+e

由於許多非線性模型是等價的,所以模型的引數化不是惟一的,這使得非線性模型的擬合和解釋相比與線性模型複雜得多。在非線性回歸分析中估算回歸引數的最通用的方法依然是最小二乘法。

四.總結。

回歸分析作為資料探勘中的統計方法之一,在科研,商業方面都有廣泛的應用;通過這種方法可以確定,許多領域中各個因素(資料)之間的關係,從而可以通過其用來**,分析資料。

資料探勘之回歸分析

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一周的時間更新完成。需要 非常好的excel資料 word文件,歡迎發郵件給1982500361 qq.com,免費發放。這篇部落格對應 非常好的excel資料 裡的第6章節。資料 python操作 import panda...

資料探勘之線性回歸練習

獲取乙個特徵 diabetes x temp diabetes.data np.newaxis,2 diabetes x train diabetes x temp 20 訓練樣本 diabetes x test diabetes x temp 20 測試樣本 後20行 diabetes y tra...

R語言進行資料探勘 回歸分析

1 線性回歸 線性回歸就是使用下面的 函式 未來觀測量 其中,x1,x2,xk都是 變數 影響 的因素 y是需要 的目標變數 被 變數 線性回歸模型的資料 於澳大利亞的cpi資料,選取的是2008年到2011年的季度資料。year quarter cpi cor year,cpi cor quart...