簡述主成分分析法的基本步驟 因素分析的基本原理

2021-10-14 05:01:36 字數 1783 閱讀 1388

1: 因素分析含義

因素分析是基於相關關係對眾多資料進行降維(即簡化)的資料處理方法,目的在於挖掘出眾多資料後的某種結構。因素分析分為探索性因素分析和驗證性因素分析,筆者將重點來介紹探索性因素分析。

2: 因素分析的條件

(1)所有變數須為連續變數,順序變數與類別變數不能進行因素分析。

(2)樣本量有一定的規模。實際上,對因素分析所需的樣本數沒有絕對的標準。但現在比較認同的有兩個觀點:

(3)變數間的相關程度。因素分析要求變數間有適當的相關性,若相關程度太高,可能會發生多重共線性問題;若相關程度太低(一般絕對值<0.3)可能不存在公共因子,則不適合進行因素分析。在spss中,可用球形檢驗與kmo檢驗來驗證。

3:篩選題項

若題項間有明顯的相關關係,則因素分析會構建成有意義的內容,若乙個變數與其它變數相關性很低,在下乙個步驟中可以考慮剔除乙個變數,但實際排除與否,還要考慮變數的共同性和因素負荷量。若以原始資料做因素分析的資料時,電腦會自動先轉化為相關矩陣方式,再進行因素分析。

4:確定公共因子的數量

(1)kaiser's準則,選取特徵值大於1的,這也是spss 預設標準。特徵值反映了原始變數的總方差在各公共因子上重新分配的結果。特徵值越大該公共因子就越重要。

(2)陡坡圖檢驗法(scree plot test),將每個因素依其特徵值的大小遞減排列,根據陡坡圖的形狀,提取圖中最大拐點前「碎石」的數量。

(3)累積貢獻率原則。根據前幾個成分累積貢獻率達到的百分比來確定公共因子的數量(一般最少為50%以上的累積解釋變異量),方差貢獻率是指單個公因子引起的變異佔總變異的比例,說明此公因子對因變數的影響力大小,貢獻率越高說明該因子所代表的原始資訊量越大。此方法可以保證較高的累計貢獻率,但提取的公共因子的數量一般較多。

(4)若對於業務非常了解,可以事前定好因素數目。

5: 選擇抽取共同因素的方法

(1)提取因子的方法有七種:主成分分析法、主軸法、一般化最小平方法、未加權最小平方法、最大概似法、alpha因素抽取法、映象因素抽取法。

(2)如何選取?

一是考慮因子分析的目的,二是對變數方差的了解程度。具體來說,如果因子分析的目的是用最少的因子最大程度解釋原始資料的方差,則應用主成分分析法,主成分分析法(pfa)為最常用的方法;若因子分析的主要目的是確定資料結構,則適合用主軸因子法,因為主軸因子法符合理論要求,不過,二者的結果通常一致。

ps:主成分是以全體變異量為分析物件,主軸因素法是以變數間的共同變異量為分析物件。

6: 因素旋轉

因素旋轉後因子載荷將得到重新分配,因子載荷的差異變大,使得因素負荷量易於解釋。

(1)常用方法:最大變異法(varimax)、四次方最大值法(quartimax)、相等最大值法(equamax)、直接斜交轉軸法(direct oblimin)、promax轉軸法。前三種屬於正交轉軸法,即因素與因素間沒有關聯;後兩者為斜交轉軸法,表示因素與因素間有某種程度的相關。若為正交旋轉,以旋轉後因素負荷量矩陣為準;斜交旋轉,建議以模式矩陣(即因素對專案的加權係數)為準。

(2)優缺點:正交旋轉能容易地解釋和表示因子分析的結果,但有些因子可能不一定完全無關,違背了實際情況,與實際不符。斜交旋轉則更接近實際情況,符合現實,但研究者必須探測出各因子確切的相關係數,確定斜交旋轉的引數。

7:公共因子的命名

根據因素負荷量將專案歸類,參考因素負荷量絕對值》30的專案,認真思考總結各個因子下原始變數的共同特徵,對因素加以命名。

主成分分析法

相關係數 矩陣 相當於消除量綱的表示變數間相關性的乙個矩陣 協方差矩陣 它是沒有消除 量綱的表示變數間相關性的矩陣。對比下它們的等式變換關係 r cov x,y d x d y 1 求相關係數矩陣或者協方差矩陣r 2 計算r的特徵值 3 求特徵根對應的單位特徵向量 4 主成分選取,含 釋及計算 主成...

主成分分析法

在本篇部落格中,我們將會介紹一種方法,叫做主成分分析法 pca 這種方法試圖確定資料接近位於的子空間。pca相對於因子分析法將會更為直接,它僅僅需要進行特徵向量的計算 在matlab中使用eig函式 並不需要使用em演算法。假設我們有這樣的乙個資料集 表示m個不同種類的汽車發動機的屬性,例如他們的最...

主成分分析法(PCA)

一 數學基礎 1.方差 用來計算每乙個變數 觀察值 與總體均數之間的差異。總體方差計算公式 為總體方差,為變數,為總體均值,為總體例數。2.協方差 在概率論 和統計學中,協方差用於衡量兩個變數的總體誤差。而方差是 協方差的一種特殊情況,即當兩個變數是相同的情況。期望值分別為 e x 與 e y 的兩...