SqlCelPy 因子分析使用說明

2021-10-23 21:03:05 字數 3213 閱讀 8542

三、生成圖表解釋

在實際應用中,我們往往試圖收集很多變數來描述事物,從而達到對事物更全面的了解。變數越多,對事物特徵的反應就越完整,但同時也給資料的分析帶來一定的困難:大量描述同一事物特徵的變數資料疊加在一起可能造成資訊嚴重重複,甚至會掩蓋事物內部的真正規律。

因此我們可以從描述事物屬性的諸多變數中尋找一些對每個變數都起作用的新的潛在變數(公共因子),用這些潛在變數來解釋每一條記錄,而其它無法用公共因子解釋的部分我們稱之為特殊因子。比如,我們對學生的語文、數學與英語成績進行分析,得知每個科目的成績和乙個變數都相關,我們稱這個變數為智力。這個變數是虛構的,不可觀測的,即因子。該因子反應了3個科目成績的變異,因此是乙個公共因子。每個科目的成績除了和智力相關,還可能和其它因素相關,我們將其它因素籠統的用另乙個虛擬變數來表示,這個虛擬變數稱之為特殊因子。因子分析的目的就是為了找到這些公共因子,並計算每一條觀測在公共因子上的得分,從而實現減少變數達到簡化分析的目的。

我們在尋找公共因子的同時,也會試圖給這個公共因子尋找乙個有意義的解釋,比如上文提到的「智力」。這對我們對公共因子的理解非常重要。

軟體開啟後介面如下:

選擇的資料集需滿足以下條件:

1) 首行是字段,且至少有兩個字段

2) 每個欄位均為數值型字段。

如下:

因子載荷矩陣體現了每個變數和因子之間的相關關係,一般因子載荷的值越大,說明對應變數和因子的依存度越高。

在眾多計算因子載荷的方法中,哪種方法最有效並無定論。工具中提供了三種常用方法:

最小殘差法:預設方法。對公共因子和特殊因子的分布均無要求。

最大似然法:要求公共因子和特殊因子服從正態性分布;

主成分法:首先對資料進行主一次成分分析,將前面的幾個主成分作為未旋轉的公共因子。使用該方法的優點是對公共因子和特殊因子的分布均無要求,缺點是計算出來的特殊因子之間是相關的。不過當共線性方差較大時,特殊因子之間的相關性是可以忽略的。

如果公因子滿足正態性分布,建議使用最大似然法。因子載荷計算方法的不同對變數的公因子方差估計和因子旋轉後的因子模式均有影響。在選擇計算方法的時候也要綜合考慮這兩方面的因素,即平衡公因子方差估計接近1和因子旋轉後變數在某乙個因子上有較高載荷之間的關係。

控制輸出幾個公共因子。

進行因子載荷計算的最終目的不僅在於尋找公共因子,更重要的是對公共因子的意義進行解釋。理想情況下我們希望看到變數在某個因子上具有高額載荷,而在其它因子上有較小載荷,這樣更有利於我們分析公共因子的實際意義。如果公共因子的實際意義不明顯,可以嘗試因子旋轉。經過旋轉,因子的結果會發生變化。值得一提的是,旋**生了變化不代表先前的因子結構是錯誤的,二者僅表示看問題的角度不同而已。

因子旋轉分為正交旋轉和斜交旋轉。所謂正交旋轉是由初始因子載荷矩陣右乘以正交矩陣。經過正交旋轉得到的新的公共因子仍然保持彼此不相關的性質。而斜交旋轉則是放鬆了因子彼此不相關這一限制,因而得到的公共因子可能是相互關聯的。

1) promax(斜交旋轉)

2) varimax(正交旋轉)

3) none(不旋轉)

在因子分析中,我們最終感興趣的可能是因子的得分。因子得分計算就是計算每一條觀測在因子上的得分。勾選「因子得分計算」核取方塊將彈出選擇資料集的對話視窗,如下:

訓練資料集

使用訓練好的模型對訓練資料集進行因子得分計算。所謂訓練資料集即最開始選擇的用於訓練模型的資料集。

新資料集

使用訓練好的模型計算乙個新選擇的資料集的因子得分。

1、 充分性測試

並不是所有的資料集都具有因子分析的價值。因此在做因子分析之前, 我們需要先做充分性檢測,就是檢測資料集中能否找到這些公共變數。生成圖表如下:

如果bartlett』s test的p值小於0.05說明充分性顯著。如果kmo test的p值大於0.6說明充分性顯著。

2、 相關係數矩陣

相關係數矩陣用來觀察變數之間的相關性,如下:

因子分析要求變數之間具有較高的相關性。

3、 特徵值

可參考特徵值選擇合適的因子個數,如下:

第乙個特徵值為3.9338解釋方差佔比78.68%,前2個特徵值累積解釋變異為89.52%,因此我們可以嘗試設定公共因子個數為2個。

4、 旋轉前因子模式

旋轉前因子模式反應每個變數在因子上的因子載荷。如下:

我們從因子模式可以看出,除了變數length,其餘變數在兩個因子上均具有較高載荷,而且載荷明顯。這不利於因子意義的解釋,因此可以嘗試因子旋轉。

5、 每個因子說明的方差

每個因子說明的方差表示每個因子對原始變數的解釋能力(方差貢獻)的度量。如下:

6、 最終的公因子方差估計

最終的公因子方差估計越接近1就說明所選擇的因子越能解釋原始變數。如下:

7、 旋轉後因子模式

經過旋轉後因子模式如下:

從該因子模式可以看出,公共因子factor1包含三個高載荷的變數weight、wheelbase、length,它們描述的是車型,我們也可以把它解釋為「舒適性」。公共因子factor2包含兩個高載荷的變數mpg_city和mpg_hightway,它們均描述油耗方面的資訊,因此可以將公共因子factor2解釋為「油耗」。

8、 因子得分計算

使用訓練好的模型計算資料集中每一條記錄在因子上的得分。得出結果如下:

其中factor1和factor2是輸出的兩個因子得分。

因子分析 因子得分

因子分析的最後一步了,悲傷 在因子分析中,人們一般關注的重點是估計因子模型的引數 載荷矩陣 有時公共因子的估計 即所謂的因子得分 也是需要的,因子得分可以用於模型診斷,也可以作為下一步分析的原始資料。需要指出的是,因子的得分計算並不是通常意義下的引數估計,他是對不可觀測的隨機變數 取值的估計 通常可...

因子分析原理

因子分析是根據相關性大小把原始變數進行分組,使得同組內的變數之間相關性較高,而不同組的變數間的相關性則較低。每組變數代表乙個基本結構,並用乙個不可觀測的綜合變數表示,這個基本結構就稱為公共因子。先介紹一下因子分析的數學模型,如下 因子模型 正交因子模型 1 確定待分析的原有若干變數是否適合進行因子分...

因子分析模板

2011a 2模板 p10 因子分析的主要步驟如下 資料標準化 由於不同重金屬元素的量綱可能不同,因此為了消除量綱對資料的影響,對所有的重金屬採用下面的公式對資料進行歸一化處理 其中2 計算協方差矩陣s 因為已經對資料進行歸一化處理,協方差的大小在一定程度上表示了個元素之間的關係,記每個區有n個取樣...