資料探勘的步驟有哪些

2021-10-09 02:10:41 字數 1196 閱讀 4577

所謂資料探勘就是從海量的資料中,找到隱藏在資料裡有價值的資訊。因為這個資料是隱式的,因此想要挖掘出來並不簡單。那麼,如何進行資料探勘呢?資料探勘的步驟有哪些呢?一般來講,資料探勘需要經歷資料收集、資料視覺化、資料預處理、準備模型輸入以及訓練模型五大步驟,下面讓中琛魔方來詳細分析一下吧!

資料探勘的步驟:

第一步:資料收集

通俗來講,我們把資料探勘可以看作是想要炒一盤可口的菜餚。那麼,首先第一步就是去菜市場買菜。同樣的,我們要從資料中找到需要的資訊,第一步就是收集資料。

第二步:資料視覺化

就好比你去買菜的時候,肯定要好好挑選一下,爭取買到比較新鮮的蔬菜。同樣的,資料探勘的第二個步驟,就是再有了資料之後,還要看看拿來的資料長啥樣。因此,我們可以利用各種視覺化庫來觀察一下資料的內容,比如matplotlib或seaborn。

第三步:資料預處理

買完菜回到家我們要做的就是洗菜,把附著的泥土和殘枝爛葉去掉,不然會影響我們的口感。通過上一步的視覺化,我們可以發現資料裡面有沒有「殘枝爛葉」,也就是我們說的異常值。異常值包括格式有問題的資料,例如年齡資訊填的不是數字,或者資訊根本就不符合邏輯,比如年齡填的200歲。

大家填過各種調查問卷吧?很多人在填寫的時候,遇到那些不是必須填的地方一般都會空著不填。這就導致資料集裡除了異常值,還有乙個經常會遇到的就是缺失值。我們也會通過一些手段來彌補一下這些空缺。就好比我們把蔬菜清洗乾淨之後,還要選擇一下是不是所有的菜我們都需要呢?想吃蔬菜的可以多放蔬菜,想吃肉的就多放些肉。所以我們還需要在資料裡選擇出來跟我們的任務相關的特徵,這個過程叫做特徵選擇。

第四步:準備模型輸入

我們此時案板上放著我們洗乾淨和挑選出來的蔬菜,下一步就是切菜了。畢竟炒土豆絲也沒有把一整個土豆直接放鍋裡的。所以我們要對這些蔬菜,也就是資料,進行乙個轉化。這個過程我們運用到獨熱編碼和分桶,分別是對離散型資料和連續型資料的處理方式。

第五步:訓練模型

最後一步就是炒菜啦。我們的模型就是不同種類的鍋,在資料探勘中常見的模型翻來覆去就那麼幾個,比如決策樹,邏輯回歸,梯度提公升樹,k-means等。一般來講,比較有代表性的兩個模型是邏輯回歸和決策樹,可以**「是否會倖存」。其他的模型只是內部原理不同,但使用方法都是一樣的。大家在進行資料探勘的時候,也可以選擇若干模型,最後看看結果分別都怎麼樣,對比一下誰比較強。

以上就是資料探勘比較詳細的步驟分析。資料探勘是使用模式識別邏輯來識別樣本資料集中的趨勢,並根據更大的資料池推斷這些資訊,而資料倉儲是提取和儲存資料以便於報告的過程。

資料分析的步驟有哪些?

資料分析 有極廣泛的應用範圍,這是乙個掃盲貼。典型的資料分析 可能包含以下三個步 資料分析過程實施 資料分析過程的主要活動由識別資訊需求 收集資料 分析資料 評價並改進資料分析的有效性組成。一 識別資訊需求 識別資訊需求是確保資料分析過程有效性的首要條件,可以為收集資料 分析資料提供清晰的目標。識別...

大資料建模步驟有哪些

資料建模,通俗地說,就是通過建立資料科學模型的手段解決現實問題的過程。資料建模也可以稱為資料科學專案的過程,並且這個過程是週期性迴圈的,也是是我們在做資料分析的時候會經常使用的一種資料分析方法,那麼大資料建模都有哪些步驟。1 資料測量 資料測量包括ecu內部資料獲取,車內匯流排資料獲取以及模擬量資料...

基於CRISP的資料探勘有哪些坑?

crisp dm cross industry standard process for data mining 即跨行業資料探勘標準流程,描述了資料探勘的生命週期,是迄今為止最流行的資料探勘流程,更多crisp dm的應用示例請看 crisp dm,still the top methodolog...