在大資料時代,資料探勘是最關鍵的工作。大資料的挖掘是從海量、不完全的、有雜訊的、模糊的、隨機的大型資料庫中發現隱含在其中有價值的、潛在有用的資訊和知識的過程,也是一種決策支援過程。其主要基於人工智慧,機器學習,模式學習,統計學等。通過對大資料高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業、商家、使用者調整市場政策、減少風險、理性面對市場,並做出正確的決策。目前,在很多領域尤其是在商業領域如銀行、電信、電商等,資料探勘可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。大資料的挖掘常用的方法有分類、回歸分析、聚類、關聯規則、神經網路方法、web資料探勘等。這些方法從不同的角度對資料進行挖掘。
(1)分類。
分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類、趨勢**中,如**商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向使用者推薦關聯類的商品,從而增加商鋪的銷售量。
(2)回歸分析
回歸分析反映了資料庫中資料的屬性值的特性,通過函式表達資料對映的關係來發現屬性值之間的依賴關係。它可以應用到對資料序列的**及相關關係的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出**並做出針對性的營銷改變。
(3)聚類
聚類類似於分類,但與分類的目的不同,是針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。
(4)關聯規則
關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據乙個資料項的出現推導出其他資料項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始資料中找出所有的高頻專案組;第二極端為從這些高頻專案組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以**客戶的需求,各銀行在自己的atm機上通過**客戶可能感興趣的資訊供使用者了解並獲取相應資訊來改善自身的營銷。
(5)神經網路方法
神經網路作為一種先進的人工智慧技術,因其自身自行處理、分布儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料為特徵的處理問題,它的這一特點十分適合解決資料探勘的問題。典型的神經網路模型主要分為三大類:第一類是以用於分類**和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以hopfield的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以art模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。
6)web資料探勘
web資料探勘是一項綜合性技術,指web從文件結構和使用的集合c中發現隱含的模式p,如果將c看做是輸入,p看做是輸出,那麼web挖掘過程就可以看做是從輸入到輸出的乙個對映過程
大資料與雲計算
近幾年來,雲計算受到學術界和工業界的熱捧,隨後,大資料橫空出世,更是炙手可熱。那麼,大資料和雲計算之間是什麼關係呢?從整體上看,大資料與雲計算是相輔相成的 大資料著眼於 資料 關注實際業務,提供資料採集分析挖掘,看重的是資訊積澱,即資料儲存能力。雲計算著眼於 計算 關注it解決方案,提供it 基礎架...
大資料與雲計算
近幾年來,雲計算受到學術界和工業界的熱捧,隨後,大資料橫空出世,更是炙手可熱。那麼,大資料和雲計算之間是什麼關係呢?從整體上看,大資料與雲計算是相輔相成的 大資料著眼於 資料 關注實際業務,提供資料採集分析挖掘,看重的是資訊積澱,即資料儲存能力。雲計算著眼於 計算 關注it 解決方案,提供it 基礎...
雲計算與大資料
雲計算與大資料 什麼是大資料大資料,或稱巨量資料 海量資料 是由數量巨大 結構複雜 型別眾多資料構成的資料集合,是基於雲計算的資料處理與應用模式,通過資料的整合共享,交叉復用形成的智力資源和知識服務能力。有研究機構如此定義 大資料 大資料 是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能...