資料處理尚未有統一的標準流程,這裡只是提出一種實現可能。
無論是資料分析或者建模,首先是要累積一定的資料,不然沒有統計性。所以自然而然地,分析模式下我們習慣了進行批處理。而在開始應用的時候通常是單條過來的,並且要經過一系列變換才能使用。
從原始資料(表資料)開始,處理流程如下:
進行元資料分析,生成基礎資料報告。
對資料的基礎資訊進行描述,並對資料質量進行檢查。
就表資料而言,只有寬表和長表。寬表又叫主表,長表又叫日誌表。
根據規整形成的報告,進行相應的提取。這步主要進行表分析,規則分析和視覺化,最終的結果形成資料分析報告,資料分析表。
資料分析報告:假設資料處於可用的狀態,進行的對應提取,並形成諸多統計報告。目的是為了業務人員了解,確認,並可以使用簡單的統計資訊。也為了提醒分析者資料的基本狀況,可用性。
資料衍生有兩種方式和三個角度。
方式一,基於規則的變數衍生。
方式二,基於演算法的變數衍生。
角度一,基於時間模式進行衍生,例如rfm。
角度二,基於高維模式進行衍生,例如多項式衍生。
角度三,基於網路模式進行衍生,例如pagerank。
這步的結果形成衍生變數分析報告,衍生方法。
衍生變數分析報告:生成了多少衍生變數,其特性和相互之間的關係如何。
衍生方法:每乙個衍生變數是如何生成的。
對應於資料衍生的方式,同樣有三種方式進行模式識別。
這步的結果是模式分析報告,模式策略建議,模式判別模型
模式分析報告:分別具有哪些模式,這些模式的特徵在**。
模式策略建議:針對不同的模式,給出哪些策略建議。
模式判別模型:不同模式的判別方法。
對應於資料衍生的方式,同樣有三類模型。模型與模式的差別在於,乙個是視錐細胞,乙個是視桿細胞;乙個看細節,乙個看輪廓。
模型思路有兩種,主觀模型(貝葉斯派)和客觀模型(頻率學派)。
模型手段有兩種,模擬方法和解析方法。
這步的結果是模型分析報告,模型穩定性報告,模型效能報告,模型公式
模型分析報告:模型的全過程說明,以及產生的業務性結果。
模型穩定性報告:各個階段模型的穩定性情況(輸入,輸出,時間和資源)
模型效能報告:在各個方面模型的統計表現(錯殺,誤放)
模型公式:模型的判別細節
以下僅羅列一部分
建模雜談系列14 建模流程1 從資料開始
探索建模的流程和處理步驟。從資料 檔案的角度看,在整個建模過程中會發生什麼 2 檔案和變數的命名 3 持久化 檔案儲存 資料庫 4 引數的產生和管理 5 過程檔案的產生和管理 6 模型的產生和管理 7 報告檔案 從資料表開始 在乙個專案空間下,表的原始字段應該是固定含義的。例如name如果表示名字,...
資料處理流程
本題是乙個綜合練習題目總共包括以下部分 1.資料的預處理階段 2.資料的入庫操作階段 3.資料的分析階段 4.資料儲存到資料庫階段 5.資料的查詢顯示階段 給出資料格式表和資料示例,請先閱讀資料說明,再做相應題目。建立video user orc表 create table video user o...
數學建模之資料處理
前言 資料預處理是美賽c題最重要的組成部分,十分考驗我們對問題的理解與抽象,我們的重心應該放在資料處理而非演算法上,演算法只需選擇合適的即可,無需高大上!下面介紹數模中資料預處理涉及到的一些重要。2.原始資料的殘缺值處理與異常值檢測 2.1.3 knn演算法填充 2.1.4 擬合值 值填充 2.2 ...