常用資料分析方法

2022-03-26 19:56:25 字數 2239 閱讀 8005

**自:

一、描述性統計

描述性統計是一類統計方法的彙總,揭示了資料分布特性。它主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分布以及一些基本的統計圖形。

1、缺失值填充:常用方法有剔除法、均值法、決策樹法。

2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分佈,所以在做資料分析之前需要進行正態性檢驗。常用方法:非引數檢驗的k-量檢驗、p-p圖、q-q圖、w檢驗、動差法。

二、回歸分析

回歸分析是應用極其廣泛的資料分析方法之一。它基於觀測資料建立變數間適當的依賴關係,以分析資料內在規律。

1. 一元線性分析

只有乙個自變數x與因變數y有關,x與y都必須是連續型變數,因變數y或其殘差必須服從正態分佈。

使用條件:分析多個自變數x與因變數y的關係,x與y都必須是連續型變數,因變數y或其殘差必須服從正態分佈。

3.logistic回歸分析

線性回歸模型要求因變數是連續的正態分佈變數,且自變數和因變數呈線性關係,而logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況。

三、方差分析

使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分佈總體;各總體方差相等。

四、假設檢驗

引數檢驗是在已知總體分布的條件下(一股要求總體服從正態分佈)對一些主要的引數(如均值、百分數、方差、相關係數等)進行的檢驗 。

非引數檢驗則不考慮總體分布是否已知,常常也不是針對總體引數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。

適用情況:順序型別的資料資料,這類資料的分布形態一般是未知的。

1)雖然是連續資料,但總體分布形態未知或者非正態;

2)總體分布雖然正態,資料也是連續型別,但樣本容量極小,如10以下;

主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、k-量檢驗等。

五、相關分析

相關分析是一種非確定性的關係,研究現象之間是否存在某種依存關係,並對具體有依存關係的現象**其相關方向以及相關程度。

六、聚類分析

聚類是將資料分類到不同的類或者簇這樣的乙個過程,因此同乙個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出乙個分類的標準,聚類分析能夠從樣本資料出發,自動進行分類。

1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類。

2)逐步聚類法 :適用於大樣本的樣本聚類。

3)其他聚類法 :兩步聚類、k均值聚類等。

七、判別分析

判別分析,是一種統計判別和分組技術,就一定數量樣本的乙個分組變數和相應的其他多元變數的已知資訊,確定分組與其他多元變數資訊所屬的樣本進行判別分組。

判別分析與聚類分析的區別

八、因子分析

因子分析是指研究從變數群中提取共性因子的統計技術,從大量的資料中尋找內在的聯絡,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法、最大似然法、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,以相關係數矩陣為基礎。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。

九、主成分分析

通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。其主要思想是降維,將n維特徵對映到k維上(k與因子分析比較:

相同:都能夠起到分析多個原始變數內在結構關係的作用;

不同:主成分分析重在綜合原始變適的資訊.而因子分析重在解釋原始變數間的關係。

常用大資料分析方法

資料探勘分析,最重要的是能夠將資料轉化為非專業人士也能夠清除理解的有意義的見解。資料探勘分析,可以被分為四類核心方法 是最常見的資料分析方法。在業務中,這種方法向資料分析師提供了重要指標和業務的衡量方法。例如 每月的營收和損失賬單。資料分析師可以通過這些賬單,獲得大量的客戶資料。了解客戶的地理資訊,...

Pandas資料分析常用方法

指定索引列 names 列名陣列,預設值 none,用於讀取資料的指定列名 eg1 catering sale catering sale.xls data pd.read excel catering sale,names date sale 外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接...

資料分析的pandas常用方法

pandas模組為我們提供了非常多的描述性統計分析的指標函式,如總和 均值 最小值 最大值等,我們來具體看看這些函式 首先隨機生成三組資料 np.random.seed 1234 d1 pd.series 2 np.random.normal size 100 3 d2 np.random.f 2,...