《資料分析的統計基礎》學習筆記(一) 資料分析概述

2022-04-08 13:39:28 字數 4235 閱讀 1704

1.1 什麼是資料分析

客觀:從行業的角度看,資料分析是基於某種行業目的,有目的地進行收集,整理,加工,和分析資料,提煉有價值資訊的乙個過程。

本質:a.目標,資料分析的關鍵在於設立目標,專業上叫做「有針對性」

b.方法,包括統計分析和資料探勘

c.結果,資料分析最終要得出分析結果,結果對目標解釋的強弱,結果的應用效果如何。

1.2 資料分析六步曲

明確分析目的和內容=》資料收集=》資料預處理=》資料分析=》資料展現=》報告撰寫

1.2.1 明確分析目的和內容

分析物件是誰?商業目的是什麼?解決什麼業務問題?

1.2.2 資料收集

觀察法,訪談法,問卷法,測驗法等

1.2.3 資料預處理

a.資料審查

記錄數是否滿足最低要求,內容是否與要求一致,是否全面,檢查字段型別,字段值的最大值,最小值,平均數,中位數等

b.資料清理

針對a中發現的明顯錯誤值、缺失值、異常值、可疑資料、重複資料等選用適當的方法進行「清理」,使「髒」資料變為「乾淨」資料。

c.資料轉換

無量鋼化處理、線性變換、彙總和匯聚、適度概化、規範化、以及屬性構造等

d.資料驗證

初步評估和判斷資料是否滿足統計分析的需要,從而決定是否需要增加或減少資料量。利用簡單的線性模型及散點圖、直方圖、折線圖、等圖形進行探索性分析、一致性檢驗等方法對資料的準確性進行驗證,確保不把錯誤和偏差的資料帶入到資料分析中。

1.2.4 資料分析

指通過分析手段、方法和技巧對準備好的資料進行探索、分析,從中發現因果關係、內部聯絡和業務規律,為目標提供決策參考

分析方法:方差、回歸、因子、聚類、分類、時間序列等(原理,使用範圍,結果的解釋)

工具:spss、r、matlab、sas等

1.2.5 資料展現

餅形圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累託圖等

1.2.6 報告撰寫

明確的結論、建議和解決方案

1.3 資料分析方法簡介

1.3.1 統計分析方法簡介

1.3.1.1 描述性統計分析(description statistics)

通過圖表或數學的方法,對資料資料進行整理、分析,並對資料的分布狀態、數字特徵和隨機變數之間的關係進行估計和描述的方法。

a. 集中趨勢分析  (平均數、中數、眾數)

b. 離中趨勢分析 (全距、四分差、平均差、方差、標準差)

c. 相關分析 

研究現象之間是否存在某種依存關係,並對具體有依存關係的現象進行其相關方向及相關程度的研究(相關係數=》回歸方程)

1.3.1.2 回歸分析(regression)

確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,它主要研究乙個隨機變數y對另乙個隨機變數(x)

或一組(x1,x2, x3...xk)變數的相依關係

一元回歸分析和多元回歸分析(涉及的變數多少)

線性回歸分析和非線性回歸分析(自變數和因變數之間的關係)

1.3.1.3 對應分析 (correspondence analysis)

「關聯分析」,「r-q型因子分析」,通過分析由定性變數構成的互動彙總表來揭示變數間的聯絡。

可以揭示同乙個變數的各個類別之 間的差異,以及不同變數各個類別之間的對應關係。

對應分析的基本思路是將乙個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。

1.3.1.4 因子分析(factor analysis)

研究從變數群中提取共性因子的統計技術。從大量的資料中尋找內在的聯絡,減輕決策困難的分析方法。

重心法、影像分析法、最大似然解法、最小平方法、阿爾發抽因法、拉奧典型抽因法。

以相關係數矩陣為基礎,所不同的是相關係數矩陣對角線上的值,採用不同的共同性估值。常採用以主成分分析為基礎的反覆法。

1.3.1.5 方差分析(analysis of variance (anova))

「變異數分析」、「f檢驗」。用於兩個及以上樣本均數差別的顯著性檢驗。從觀測變數的方差入手,研究諸多控制變數中哪些變數是

對觀測變數有顯著影響的變數。

1.3.2 資料探勘方法簡介

1.3.2.1 聚類分析(cluster analysis)

將物理或抽象物件集合分組成為由類似的物件組成的多個類的分析過程。聚類是將資料分類到不同的類或者簇的過程,所以同乙個簇中的物件有很大的相似性,而不同簇之間的物件有很大的相異性。

1.3.2.2 分類資料分析

1.3.2.2.1 決策樹(decision tree)

起源是概念學習系統cls,然後發展到id3演算法,最後又演化為能處理連續屬性的c4.5。有名的決策樹方法還有cart和assistant。

優點:可以生成可理解的規則;計算量相對來說不是很大;可以處理連續和離散字段;可以清晰的顯示出哪些字段比較重要。

缺點:對連續性的字段比較難**;當類別太多時,錯誤可能會增加得比較快;一般的演算法分類的時候,僅根據乙個屬性來進行分類;

不是全域性最優。

1.3.2.2.2 人工神經網路(artificial neural networks(anns))

是一種應用類似於大腦神經突觸聯接的結構進行資訊處理的數學模型,它是資料探勘中機器學習的典型代表。是由人工建立的以有向圖為拓撲結構的動態系統,通過對連續或斷續的輸入作狀態響應而進行資訊處理。

特點:可以充分逼近任意複雜的非線性關係;所有定量或定性的資訊都等勢分布存於網路內的各神經元中。故有很強的魯棒性和容錯性;

採用分布處理方法,使得快速進行大量運算成為可能;可以學習和自適應不知道或不確定的系統;能夠處理定量,定性的知識。

1.3.2.2.3 貝葉斯分類(bayesian classification)

主要用來**類成員間的可能性。是基於貝葉斯定律。

1.3.2.2.4 支援向量機(support vector machine)

與傳統的神經網路技術相比,支援向量機不僅結構簡單,而且各項技術的效能也明顯提公升。支援向量機以結構風險最小為原則。

1.3.2.2.5 隨機森林(random forest(rf))

是一種組合分類器,它利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本進行決策樹建模,然後將這些  

決策樹組合在一起,通過投票得出最終分類或**的結果。

大量的理論和實證研究都證明了隨機森林演算法具有較高的**準確率,對異常值和雜訊具有很好的容忍度,且不容易出現擬合。

1.3.2.3 關聯規則(association rule)

主要目的是找出資料集中的頻繁模式(frequent pattern),既多次重複出現的模式和併發關係(cooccurrence relationships),

即同時出現的關係,頻繁和併發關係也稱作關聯(association)

1.3.2.4 回歸分析(regression)

包括線性回歸(linear regression),這裡主要指多元線性回歸和邏輯斯蒂回歸(logistic regression),其中,在資料化運營中

更多使用的是邏輯斯蒂回歸(logistic regression)它包括響應**、分類規劃。

多元線性回歸主要描述乙個因變數如何隨著一批自變數的變化而變化,其回歸公式(回歸方程)就是因變數與自變數關係的資料反映。

在用來估算多元線性方程中自變數係數的方法中,最常用用的是最小二乘法,即找出一組對應自變數的相應引數,以使因變數的實際

觀測值與回歸方程的**值之間的總方差減到最小。

1.3.3 統計分析與資料探勘的區別和聯絡

1.3.3.1 統計分析與資料探勘的聯絡

都源自統計基礎理論,所以很多方法在很多情況下都是同根同源的。比如:概率論和隨機事件是統計學的核心理論之一,統計分析中

的抽樣估計需應用該理論,而在資料探勘技術的樸素貝葉斯分類中,就是這些統計理論的發展和延伸。

1.3.3.2 統計分析與資料探勘的區別

no統計分析

資料探勘

1 分析人員常常需要對資料分布和變數間的關係做假設,確定用什麼概率函式來描述變數間的關係,以及如何檢驗引數的統計顯著性;

分析人員不需要對資料分布做任何假設,資料探勘中的演算法會自動尋找變數間的關係。相對與海量,雜亂的資料,資料探勘技術有明顯的應用優勢。

2 在**中的應用常表現為乙個或一組函式關係式

在**應用中的重點在於**的結果,很多時候並不會從結果中產生明確的函式關係式。

3 分析人員先做假設或判斷,然後利用資料分析技術來驗證該假設是否成立

不需要對資料的內在關係做任何假設或判斷,而是會讓挖掘工具中的演算法自動去尋找資料中隱藏的關係或規律。更靈活,更寬廣的思路和應用。

資料探勘實戰(一) 資料分析

資料集準備 status表示標籤,但是它作為乙個特徵維度混入到特徵列表中,要先將它找出來賦給標籤,並按照約定規則將資料分為訓練集和測試集 import pandas as pd from sklearn.model selection import train test split data pd....

資料分析的統計基礎5

當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似 棣莫弗 拉普拉斯中心極限定理 設 x 1,x 2,x n,是獨立同分布 independently identically distribution 的隨機變數,x i 的分布是 p x i 1...

資料分析基礎學習

2018 09 24 資料分析 匯入資料 資料格式 先修改csv檔案內容的部分格式。正在執行 錯誤 訊息 錯誤 0xc02020a1 資料流任務 1 資料轉換失敗。列 寄投位址 的資料轉換返回狀態值 4 和狀態文字 文字被截斷,或者乙個或多個字元在目標 頁中沒有匹配項。sql server 匯入和匯...