資料探勘常用方法

2021-07-26 18:01:23 字數 1283 閱讀 9491

原文出自:

(1)分類。分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類、趨勢**中,如**商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向使用者推薦關聯類的商品,從而增加商鋪的銷售量。

(2)回歸分析。回歸分析反映了資料庫中資料的屬性值的特性,通過函式表達資料對映的關係來發現屬性值之間的依賴關係。它可以應用到對資料序列的**及相關關係的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出**並做出針對性的營銷改變。

(3)聚類。聚類類似於分類,但與分類的目的不同,是針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。

(4)關聯規則。關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據乙個資料項的出現推導出其他資料項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始資料中找出所有的高頻專案組;第二階段為從這些高頻專案組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以**客戶的需求,各銀行在自己的atm 機上通過**客戶可能感興趣的資訊供使用者了解並獲取相應資訊來改善自身的營銷。

(5)神經網路方法。神經網路作為一種先進的人工智慧技術,因其自身自行處理、分布儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料為特徵的處理問題,它的這一特點十分適合解決資料探勘的問題。典型的神經網路模型主要分為三大類:第一類是以用於分類**和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以hopfield 的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以art 模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。

(6)web資料探勘。web資料探勘是一項綜合性技術,指web 從文件結構和使用的集合c 中發現隱含的模式p,如果將c看做是輸入,p 看做是輸出,那麼web 挖掘過程就可以看做是從輸入到輸出的乙個對映過程。

當前越來越多的web 資料都是以資料流的形式出現的,因此對web 資料流挖掘就具有很重要的意義。目前常用的web資料探勘演算法有:pagerank演算法,hits演算法以及logsom 演算法。這三種演算法提到的使用者都是籠統的使用者,並沒有區分使用者的個體。目前web 資料探勘面臨著一些問題,包括:使用者的分類問題、**內容時效性問題,使用者在頁面停留時間問題,頁面的鏈入與鏈出數問題等。在web 技術高速發展的今天,這些問題仍舊值得研究並加以解決。

資料探勘方法

資料探勘方法 分類決策樹 id3演算法 c4.5演算法 c5.0演算法 cart演算法 支援向量機 聚類k means演算法 twostep演算法 關聯規則 apriori演算法 fp tree演算法 carma演算法 序列模式演算法 篩選特徵選擇演算法 異常檢測演算法 回歸分析 線性回歸 邏輯回歸...

資料探勘技能的分類和資料探勘的常用方法的剖析

21世紀是資料資訊大發展的時代,移動互聯 社交網路 電子商務等都極大拓展了其應用範圍,各種資料迅速擴張變大。大資料蘊藏著價值資訊,但如何從海量資料中淘換出出對客戶有用的沙金甚至鑽石,是資料人面臨的巨大挑戰。本文在分析大資料基本特徵的基礎上,對資料探勘技能的分類及資料探勘的常用方法進行了大略分析,以期...

資料探勘方法比較

一 可解釋性和應用廣泛性 1 決策樹 簡單直觀,邏輯性強,易於理解和應用,廣泛使用。2 神經網路 可解釋性差,遠沒有決策樹和回歸應用廣泛。3 logistic回歸 更為成熟 應用更為廣泛,具有強大的活力和最廣泛的業務應用基礎。二 缺失值和異常值敏感情況 1 決策樹 對缺失值幾乎不做處理即可應用,不易...