在大資料時代,資料探勘是最關鍵的工作。大資料的挖掘是從海量、不完全的、有雜訊的、模糊的、隨機的大型資料庫中發現隱含在其中有價值的、潛在有用的資訊和知識的過程,也是一種決策支援過程。其主要基於人工智慧,機器學習,模式學習,統計學等。通過對大資料高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業、商家、使用者調整市場政策、減少風險、理性面對市場,並做出正確的決策。目前,在很多領域尤其是在商業領域如銀行、電信、電商等,資料探勘可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。大資料的挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網路方法、web資料探勘等。這些方法從不同的角度對資料進行挖掘。
(1)分類。分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類、趨勢**中,如**商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向使用者推薦關聯類的商品,從而增加商鋪的銷售量。
(2)回歸分析。回歸分析反映了資料庫中資料的屬性值的特性,通過函式表達資料對映的關係來發現屬性值之間的依賴關係。它可以應用到對資料序列的**及相關關係的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出**並做出針對性的營銷改變。
(3)聚類。聚類類似於分類,但與分類的目的不同,是針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。
(4)關聯規則。關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據乙個資料項的出現推導出其他資料項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始資料中找出所有的高頻專案組;第二極端為從這些高頻專案組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以**客戶的需求,各銀行在自己的atm機上通過**客戶可能感興趣的資訊供使用者了解並獲取相應資訊來改善自身的營銷。
(5)神經網路方法。神經網路作為一種先進的人工智慧技術,因其自身自行處理、分布儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料為特徵的處理問題,它的這一特點十分適合解決資料探勘的問題。典型的神經網路模型主要分為三大類:第一類是以用於分類**和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以art模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。
(6)web資料探勘。web資料探勘是一項綜合性技術,指web從文件結構和使用的集合c中發現隱含的模式p,如果將c看做是輸入,p看做是輸出,那麼web挖掘過程就可以看做是從輸入到輸出的乙個對映過程。
資料探勘演算法 常用關聯演算法總結
關聯規則挖掘演算法就是從事務資料庫,關聯式資料庫或其他資訊儲存中的大量資料的項集之間發現頻繁出現的模式 關聯和相關性。關聯演算法在科學資料分析 雷達訊號分選 分類設計 銷售 生物資訊學 醫療診斷及網頁挖掘等領域成果頗豐。典型的關聯演算法包括aprior 演算法 fp g frequent patte...
資料探勘演算法
apriori演算法學習資料的關聯規則 association rules 適用於包含大量事務 transcation 的資料庫。關聯規則學習是學習資料庫中不同變數中的相互關係的一種資料探勘技術。你可能會對 apriori 演算法如何工作有疑問,在進入演算法本質和細節之前,得先明確3件事情 第一是你...
資料探勘演算法
include include define d 9 d數事務的個數 define minsupcount 2 最小事務支援度數 void main char b 20 d 100 t,b2 100 10 b21 100 10 int i,j,k,x 0,flag 1,c 20 x1 0,i1 0,...