偏最小二乘回歸是一種新型的多元統計資料分析方法,它與2023年由伍德和阿巴諾等人首次提出。近十年來,它在理論、方法和應用方面都得到了迅速的發展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。
偏最小二乘回歸方法在統計應用中的重要性主要的有以下幾個方面:
(1)偏最小二乘回歸是一種多因變數對多自變數的回歸建模方法。
(2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無法解決的問題。在普通多元線形回歸的應用中,我們常受到許多限制。最典型的問題就是自變數之間的多重相關性。如果採用普通的最小二乘方法,這種變數多重相關性就會嚴重危害引數估計,擴大模型誤差,並破壞模型的穩定性。變數多重相關問題十分複雜,長期以來在理論和方法上都未給出滿意的答案,這一直困擾著從事實際系統分析的工作人員。在偏最小二乘回歸中開闢了一種有效的技術途徑,它利用對系統中的資料資訊進行分解和篩選的方式,提取對因變數的解釋性最強的綜合變數,辨識系統中的資訊與雜訊,從而更好地克服變數多重相關性在系統建模中的不良作用。
(3)偏最小二乘回歸之所以被稱為第二代回歸方法,還由於它可以實現多種資料分析方法的綜合應用。
偏最小二乘回歸=多元線性回歸分析+典型相關分析+主成分分析
由於偏最小二乘回歸在建模的同時實現了資料結構的簡化,因此,可以在二維平面圖上對多維資料的特性進行觀察,這使得偏最小二乘回歸分析的圖形功能十分強大。在一次偏最小二乘回歸分析計算後,不但可以得到多因變數對多自變數的回歸模型,而且可以在平面圖上直接觀察兩組變數之間的相關關係,以及觀察樣本點間的相似性結構。這種高維資料多個層面的可視見性,可以使資料系統的分析內容更加豐富,同時又可以對所建立的回歸模型給予許多更詳細深入的實際解釋。
一、 偏最小二乘回歸的建模策略\原理\方法
1.1建模原理
設有 q個因變數{}和p自變數{}。為了研究因變數和自變數的統計關係,我們觀測了n個樣本點,由此構成了自變數與因變數的資料表x={}和.y={}。偏最小二乘回歸分別在x與y中提取出成分 和 (也就是說, 是 的線形組合, 是 的線形組合).在提取這兩個成分時,為了回歸分析的需要,有下列兩個要求:
(1)和應盡可能大地攜帶他們各自資料表中的變異資訊;
(2)與 的相關程度能夠達到最大。
這兩個要求表明,和 應盡可能好的代表資料表x和y,同時自變數的成分 對因變數的成分 又有最強的解釋能力。
在第乙個成分和 被提取後,偏最小二乘回歸分別實施x 對 的回歸以及 y對 的回歸。如果回歸方程已經達到滿意的精度,則演算法終止;否則,將利用 x被解釋後的殘餘資訊以及y 被 解釋後的殘餘資訊進行第二輪的成分提取。如此往復,直到能達到乙個較滿意的精度為止。若最終對 x共提取了 m個成分,…,,偏最小二乘回歸將通過實施 對,…,, 的回歸,然後再表達成關於原變數,…,, 的回歸方程,k=1,2,…,q 。
1.2計算方法推導
為了數學推導方便起見,首先將資料做標準化處理。x 經標準化處理後的資料矩陣記為=(,…,),經標準化處理後的資料矩陣記為=(,…,)。
第一步 記t1是e0的第乙個成分,t2是e1的第乙個軸,它是乙個單位向量,既||w1||=1。
記u1是f0的第乙個成分,u1=f0c1。c1 是f0的第乙個軸,並且||c1||=1。
如果要,能分別很好的代表x與y中的資料變異資訊,根據主成分分析原理,應該有
var()-max
var()-max
另一方面,由於回歸建模的需要,又要求對有很大的解釋能力,有典型相關分析的思路,與的相關度應達到最大值,既
r(t1,u1)max
因此,綜合起來,在偏最小二乘回歸中,我們要求與的協方差達到最大,既
正規的數學表述應該是求解下列優化問題,既
因此,將在||||=1和||||=1的約束條件下,去求()的最大值。
可見,是矩陣的特徵向量,對應的特徵值為.是目標函式值,它要求取最大值,所以, 是對應於矩陣最大特徵值的單位特徵向量.而另一方面, 是對應於矩陣最大特徵值的單位特徵向量.
求得軸和後,即可得到成分
1.3交叉有效性
偏最小二乘法
偏最小二乘回歸是一種新型的多元統計資料分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論 方法和應用方面都得到了迅速的發展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統計應用中的重要性主要的有以下幾個方面 1 偏最小二乘回歸是一種多因變數對多...
偏最小二乘法
偏最小二乘回歸是一種新型的多元統計資料分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論 方法和應用方面都得到了迅速的發展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統計應用中的重要性主要的有以下幾個方面 1 偏最小二乘回歸是一種多因變數對多...
偏最小二乘法
偏最小二乘回歸是一種新型的多元統計資料分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來,它在理論 方法和應用方面都得到了迅速的發展。密西根大學的弗耐爾教授稱偏最小二乘回歸為第二代回歸分析方法。偏最小二乘回歸方法在統計應用中的重要性主要的有以下幾個方面 1 偏最小二乘回歸是一種多因變數對多...