《從零高階!資料分析的統計基礎》 1 資料分析概述

2021-10-04 20:06:33 字數 3510 閱讀 9737

目錄

第一章 資料分析概述

1.什麼是資料分析

2.資料分析的六個步驟

1.明確分析目的和內容

2.資料收集

3.資料處理

4.資料分析

5.資料展現

6.報告撰寫

3.資料分析方法簡介

統計分析方法

資料探勘方法

4.統計分析與資料探勘的區別和聯絡

1.統計分析與資料探勘的聯絡

2.資料分析與資料探勘的區別

5.課後練習

1.比較常見的答案:資料分析就是分析資料,從一大堆資料中提取到你想要的資訊

在進行資料分析之前,資料分析師應對需要分析的專案進行詳細的了解,資料分析的物件是誰?資料分析的商業目的是什麼?最後的結果要解決什麼樣的業務問題?

按照確定的資料分析和框架內容,有目的地收集、整合相關資料。常用方法有觀察法、訪談法、問卷法、測驗法等

第一步:資料審查

檢查資料的數量是否滿足要求,字段值的內容是否與研究目的的要求一致等

第二步:資料清洗

針對資料審查中發現的錯誤值、缺失值、異常值、可疑資料,選用適當的方法進行清洗

第三步:資料轉換

不同字段值由於計量單位等不同,往往造成資料不可比,需要在分析前對資料進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化、以及屬性構造等

第四步:資料驗證

初步評估和判斷資料是否滿足統計分析的需要,從而決定是否需要增加或減少資料量。利用簡單的線性模型及散點圖、直方圖等進行探索,利用相關性分析、一致性檢驗等方法對資料的準確性進行驗證

資料分析是指通過分析手段、方法金額技巧對準備好的資料進行探索、分析。從中發現因果關係、內部聯絡和業務規律,為商業目的提供決策參考。

一般情況下,資料分析的結果都是通過圖、表的方式來呈現的,常用的圖表包括餅形圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累託圖等。

最後階段,撰寫資料分析報告,對整個資料分析結果的乙個呈現。乙份好的資料分析報告,首先需要有乙個好的分析框架,並且**並茂,層次明晰,能夠讓讀者一目了然。

資料分析方法分為兩張,乙個是統計分析方法,另乙個是資料探勘方法

1.描述性統計分析

描述性統計分析是通過圖表或者數學方法,對資料資料進行整理、分析,並對資料的分布狀態、數字特徵和隨機變數之間的關係進行估計和描述的方法。分為集中趨勢分析、離中趨勢分析和相關分析三大部分。

集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示資料的集中趨勢。

離中趨勢分析主要靠全距、四分差、平均差、方差、標準差等統計指標來研究資料的離中趨勢。

相關分析是研究現象之間是否存在某種依存關係,並對具體由依存關係的現象進行其相關方向及相關程度的研究。這種關係既包括兩個資料之間的單一相關關係(年齡與個人領域),也包括多個資料之間的多重相關關係(年齡、抑鬱症發生率和個人領域空間),既包括直線相關,也可以是複雜相關,還包括兩變數共同變化的緊密程度--相關係數

2.回歸分析

回歸分析是確定兩個及以上變數之間相互依賴的定量關係的一種統計分析方法,設計自變數的多少,可以分為一元回歸分析和多元回歸分析,按照自變數和因變數之間的關係型別,可以分為線性回歸和非線性回歸。此處所講的回歸分析是指一元線性回歸,區別於資料探勘方法裡的多元線性回歸和邏輯斯蒂回歸。

3.關聯分析

又稱"對應分析"、"r-q型因子分析",通過分析由定性變數構成的互動彙總表來揭示變數之間的聯絡。可以揭示同乙個變數的各個類別之間的差異,以及不同變數各個類別之間的對應關係。對應分析的乙個基本思想是將乙個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。

4.因子分析

因子分析是指研究從變數群中提取共性因子的統計技術。就是從大的資料中尋找內在的聯絡,減輕決策困難的分析方法。如重心法、影像分析法、最大似然解法、最小平方法、阿爾法抽因法、拉奧典型抽因法、pca等,大部分以相關係數矩陣為基礎。

5.方差分析

又稱"變異係數分析"、"f檢驗",是r.a.fisher發明的分析方法,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究得到的資料呈現波動狀,造成波動的原因可分為兩類,乙個是不可控的隨機因素,另乙個是研究中施加的對結果形成影響的可控因素。方差分析從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。

1.聚類分析

聚類分析是指將物理或抽象物件的集合分組稱為由類似的物件組成的多個類的分析過程。是一種無監督的資料探勘演算法,例如機器學習專欄部落格中提到的k-means聚類及其改進

2.分類分析

(1)決策樹:id3決策樹、c4.5決策樹、cart決策樹

(2)人工神經網路

(3)貝葉斯分類方法

(4)支援向量機

(5)隨機森林

3.關聯規則

關聯規則資料探勘的主要目的是找出資料集中的頻繁模式,即多次重複出現的模式和併發關係。應用關聯規則最經典的案例是購物籃分析,通過分析顧客購物籃中商品之間的關聯,可以挖掘顧客的購物習慣,從而幫助零售商更好地制定有針對性的營銷策略。

4.回歸分析

回歸分析包括線性回歸,這裡主要指多元線性回歸和邏輯斯蒂回歸。其中,在資料化運營中更多使用的是邏輯斯蒂回歸,它包括響應**、分類劃分等內容。詳情可見機器學習專欄部落格。

兩者的理論**相同,都是源於統計基礎理論,因此它們的很多方法在很多情況下都是同根同源的。比如,概率論和隨機事件是統計學的核心理論之一,統計分析中的抽樣估計需應用該理論,而在資料探勘技術的樸素貝葉斯分類中,就是這些統計理論的發展和延伸。

(1)統計分析的基礎之一就是概率論,在對資料進行統計分析時,分析人員常常需要對資料分布和變數間的關係做假設,確定用什麼概率函式來描述變數之間的關係,以及如何檢驗引數的統計顯著性,然後利用資料分析技術來驗證該假設是否成立;而在資料探勘應用中,分析人員不需要對資料分布做任何假設,資料探勘演算法會自動尋找變數間的關係。因而對於海量、雜亂的資料,資料探勘技術有明顯的應用優勢。

(2)統計分析在**中的應用常表現為乙個或一組函式關係式,而資料探勘在**領域應用中的重點在於**的結果,很多時候並不會從結果中產生明確的函式關係式,最典型的例子就是「神經網路」,它裡面的隱藏層就是乙個「黑箱」,這會對模型在實踐應用中的可理解性和可接受度造成一定影響。

1.什麼是資料分析?

2.資料分析的步驟有哪些?

3.常用的資料分析方法有哪些?

4.統計分析於資料探勘的區別和聯絡?

5.請舉出資料分析的幾個例子?

零基礎資料分析

將作者列表進行處理,並完成統計。具體步驟如下 圖是複雜網路研究中的乙個重要概念。graph是用點和線來刻畫離散事物集合中的每對事物間以某種方式相聯絡的數學模型。graph在現實世界中隨處可見,如交通運輸圖 旅遊圖 流程圖等。利用圖可以描述現實生活中的許多事物,如用點可以表示交叉口,點之間的連線表示路...

資料分析之統計分析基礎 1

變數型別和測量尺度 抽樣方法 參考書目 統計,顧名思義即將資訊統括起來進行計算的意思,對資料進行定量處理的理論與技術。統計分析常常指的是對收集到的有關資料資料進行整理歸檔並進行解釋的過程。按照功能標準劃分,可分為描述性統計和推斷統計。描述統計是將研究中所得的資料加以整理 歸類 簡化或繪製成圖表,以此...

資料分析的統計基礎5

當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似 棣莫弗 拉普拉斯中心極限定理 設 x 1,x 2,x n,是獨立同分布 independently identically distribution 的隨機變數,x i 的分布是 p x i 1...