1 資料分析流程

2021-07-25 04:04:55 字數 1967 閱讀 2907

進入公司後發現公司內主要遵循了以下圖中的資料分析流程,名為crisp-dm(cross-industry standard process for data mining。此為業界認可的用於指導資料探勘工作的方法。

在具體實踐中,業務理解,資料理解是十分重要的部分,間接決定了資料準備的複雜度。建立模型以及後面的評估與發布在實際企業中在工作量上與前者沒有可比性。在資料分析流程中,業務理解影響了資料理解,然而資料準備包括資料質量的檢驗及缺失值的填充,或者相關性分析,再到最後的feature engineering,都或多或少的受前面業務理解以及資料理解的影響。以下會對每一部分進行舉例說明

1. 業務理解

主要作為對企業業務的理解以及需求分析。業務目標為此過程的目標,通過對業務的理解,擬定實施計畫。資料分析過程一般以分類**為主,業務目標也一般以對某事件進行**為主。

2. 資料理解

資料理解為對現有資料進行初步分析,通過一系列方法,可對已有資料有乙個初步的認知,因此可對之後的資料分析包括建模後的錄入資料有乙個準備的認知。在此,對於大多數的公司採用的頻率學派方法即統計分析,我們一般採用統計描述的方法對資料進行理解。在此部,通常分為兩部分。

1. 描述統計量

假設我們有一組觀測資料:

\[, \ldots ,\]

資料作為資訊的載體,對於資料的特徵,經過總結,我們以以下幾種方式進行描述:

1.1 位置的度量: 常用的有均值,眾數,中位數,百分位數等

1.1.1 均值

\[\bar x}\frac\sum\limits_^n } \]

r語言中用法:

mean(x, trim = 0, na.rm = false)

(trim表示截尾平均數,0~0.5之間的數值,如:0.10表示丟棄最大10%和最小的10%的資料後,再計算算術平均數。預設為0. na.表示不去掉其中為na的值)

如需得到資料框的均值,則mean()的返回值為向量

1.1.2 順序統計量

sort(x) --r語言排序函式

sort(x, partial = null, na.last = na, decreasing = false,method = c("shell", "quick"), index.return = false)

此處x為數值,partial如果不為null,則為每個排序後的數字包含乙個indice(此處強烈譴責寫部落格的人只是單純的翻譯原文文件,

需要理解詳情,還是看原文文件比較好。 na.last表示na值的位置,true為放在末尾,false則放在開頭。decreasing表示排列方式為降序,

method為選擇的排序方法,index.return表示是否回傳ordering index)

1.1.3 中位數

median(x,na.rm=false)

1.1.4 百分位數

quantile(x, probs = seq(0, 1, 0.25), na.rm = false,names = true, type = 7, ...)

(probs為所需的百分位數)

2.1 分散程度的度量: 表示資料分散程度或便宜程度的特徵量,有方差,標準差,極差,四分位極差,變異係數,和標準誤差等。

2.1.1 方差標準差與變異係數

方差:\[}^}}}\frac}}}\sum\limits_^n }\bar x}}} \]

標準差:

\[ = \sqrt }  = \sqrt }\sum\limits_^n - \bar x)}^2}} } \]

變異係數:

\[cv = 100 \times \frac(\% )\]

r語言**:

var(x,y=null,na.rm=false,use) --方差

sd(x,na.rm=false) -- 標準差

2. 資料的分布

資料分析流程

主要使用pandas資料報來處理資料,以及常用到的pandas裡的函式。在這裡我們需要引入庫 import pandas as pd 並且規定下面縮寫 pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd....

資料分析流程

資料庫中沒有的資料,利用python進行資料清洗,將資料根據對應字段錄入資料庫。根據下浮率和 公式 利用資料庫中的資料進行視覺化,制定資料分析報告。暫時還不需要實現網頁的功能,軟體僅在公司內部使用。1 許部安排人員將上個月的所有商業標建立資料夾,按照投標檔案,中標檔案的方式,統一儲存。2 搭建mys...

資料分析簡單流程

基本統計分析又叫描述性統計分析,一般統計某個變數的最小值,第一四分位值,中值,第三四分位值,以及最大值。常用的統計指標 指標panda方法或屬性 計數size 最大值max 最小值min 求和sum 平均值mean 方差var 標準差std 顯示各個等分值 describe 根據分組字段,將分析物件...