資料探勘分析流程 簡介

2022-08-24 03:21:14 字數 2693 閱讀 7589

前言:大資料和人工智慧相信大家都知道,這是未來的趨勢,作為一枚程式設計師居安思危,業務**什麼的都是浮雲,資料分析了解

一波。讓我們揭開大資料分析的神秘面紗。

大資料分析其實在實際生活中很常見,京東**智慧型推薦系統就是其中的代表,通過收集使用者行為,分析使用者行為,處理使用者行為數

據,建立使用者行為模型,智慧型推薦商品。這就是資料分析。

資料分析挖掘第一步:明確目標

從上面京東天貓商品推薦系統上,我們也大致知道了資料分析的流程,同時也可以了解到前面的一系列動作,最終就是為了合理的推

薦商品。也就是說資料分析都是帶有目的性的,所以資料分析並不是隨便分析,首先需要明確資料分析的目的,比如我資料分析的目的就

為了知道

****,知道哪只**會漲,然後自己賺點小錢錢,ok,我們的目的很明確了。

資料分析挖掘第二步:資料獲取

有了挖掘目標之後,就需要收集資料了,畢竟是資料分析,沒有資料還分析啥。所以明確挖掘目標之後就需要收集資料,像之前我們

資訊資料,也是我們噠了,總之爬蟲是獲取網路資料的重要方式,get一波。瞄準各個行業的資料,擼個爬蟲,啥資料都有了。還有些情況

是不用寫爬蟲的,比如有些連鎖店也想搞資料分析,畢竟大型連鎖店想更合理的發展離不開大資料分析,分析哪款產品好賣,就能提公升銷

售額了,像這種大型連鎖店的資料一般都有自己的管理工具管理,我們只需要從資料庫裡面抽取就可以了。kettle了解下。

資料分析挖掘第三步:資料探索

獲取了資料就等於走上了人生巔峰,準備迎娶白富美了,不,醒醒!!海量的資料只是貧瘠的沙漠,你不知道下面埋葬的是**還是

沙子,獲取資料只是走出了人生巔峰的第一步。我們從網路上獲取的資料都是混亂無序的,我們不知道這些資料之間有何關聯,而資料探

索就是分析資料結構和規律過程,沙漠裡淘金的關鍵一步。

看到這裡可能就比較懵了,沙漠淘金談何容易,用雙手挖是不可能用雙手挖的。同樣資料探索也不可能靠人力去探索,人之所以是人

就是擅長使用工具,而資料探索也是有工具可用,有方向可循的,漫無目的的尋找不可能到達目的地。在資料探索方面也有2個方向:

據質量分析(缺失值分析,異常值分析,一致性分析)、資料特徵分析(分布分析,對比分析,統計量分析,週期性分析,貢獻度分析,

相關性分析),掌握相關工具資料探索就變得很容易噠。

資料分析挖掘第四步:資料處理

資料探索是給我們指引方向,告訴我們沙漠哪個地方可能有**,屬於有依據的猜測,就是告訴你「那裡可能有**,去找吧」,但

是這個範圍還是很大,畢竟資料探索只是指個方向,指定範圍,不讓我們埋頭亂竄。所以我們要想挖到**還是得再次縮小範圍,而資料

處理就能幫我們縮小範圍,資料處理包括:資料清洗(缺失值處理、異常值處理)、資料整合(實體識別、冗餘屬性識別)、資料變換

簡單函式變換,規範化,連續屬性離散化,屬性構造,小波變換)、資料規約(屬性規約、數值規約)。資料處理的目的在於提高資料的

質量,使資料更易於建模。

資料分析挖掘第五步:資料建模

萬事具備,只差東風。現在你離迎娶白富美只差乙個資料建模了,不論是資料探索還是資料處理都是為了資料建模,也就是離**的

最後一鏟子,當然一鏟子下去也有可能是沙子,畢竟我們的分析方向,挖掘方向也是有可能有誤差的。建模說的神秘,其實模型的本質就

是乙個函式,或者說是乙個公式,我們通過大量資料推演出的公式,這個公式通過輸入得到我們想要的輸出。比如我們把後續爬取的**

**相關的資訊輸入公式,得到哪只**會漲,哪只**會跌。而這個公式都是通過前面大量的資料分析總結出來的。而推演公式的方法

,或者說建模的方法包括:分類與**(分類演算法,**演算法,回歸分析,決策樹,人工神經網路)、聚類分析關聯規則時繫模式

點檢

就像不同地形判斷是否有**一樣,不同的資料和場景,我們需要選擇不同的建模方式來達到我們的目的。比如我想給**分類,分

哪些**容易漲,哪些容易跌可以使用分類演算法(分類演算法的的具體原理我們悄悄討論)。還有**演算法,通過某個現象(變數)會導致

其他現象(因變數)的發生。然後構建公式,輸入變數得到因變數的結果。比如輸入某公司管理層出現問題的某些問題,**這個公司的

**漲跌等等。

資料分析挖掘第六步:模型評價

就像前面說的,建模是挖掘**的最後一鏟子,但是鏟下去得到的是**還是沙子我們是不清楚的,但是我們可以通過一些手段來提

高是**的機率,而提高幾率的過程就是模型評價。通過模型測試提高模型的準確率。

總結:乾貨是不可能有乾貨的,我們的主題就是了解資料分析流程噠,乾貨在哪,期待後續未知的更新,喵喵喵!!!

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...

資料探勘流程

crisp dm cross industry standard process for data mining 即為 跨行業資料探勘過程標準 此kdd knowledge discovery in database 過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm 模型在各...

資料探勘流程

一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...