大資料常用的挖掘方法,主要有哪些?

2021-09-13 13:54:17 字數 1952 閱讀 6817

⑴神經網路方法

神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分布儲存和高度容錯等特性非常適合解決資料探勘的問題,因此近年來越來越受到人們的關注。典型的神經網路模型主要分3大類:以感知機、bp反向傳播模型、函式型網路為代表的,用於分類、**和模式識別的前饋式神經網路模型;以hopfield的離散模型和連續模型為代表的,分別用於聯想記憶和優化計算的反饋式神經網路模型;以art模型、koholon模型為代表的,用於聚類的自組織對映方法。神經網路方法的缺點是"黑箱"性,人們難以理解網路的學習和決策過程。

⑵遺傳演算法

sunil已成功地開發了乙個基於遺傳演算法的資料探勘工具,利用該工具對兩個飛機失事的真實資料庫進行了資料探勘實驗,結果表明遺傳演算法是進行資料探勘的有效方法之一[4]。遺傳演算法的應用還體現在與神經網路、粗集等技術的結合上。如利用遺傳演算法優化神經網路結構,在不增加錯誤率的前提下,刪除多餘的連線和隱層單元;用遺傳演算法和bp演算法結合訓練神經網路,然後從網路提取規則等。但遺傳演算法的演算法較複雜,收斂於區域性極小的較早收斂問題尚未解決。

⑶決策樹方法

決策樹是一種常用於**模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基於資訊熵的id3演算法。它的主要問題是:id3是非遞增學習演算法;id3決策樹是單變數決策樹,複雜概念的表達困難;同性間的相互關係強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進演算法,如schlimmer和fisher設計了id4遞增式學習演算法;鍾鳴,陳文偉等提出了ible演算法等。

⑷粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。目前成熟的關聯式資料庫管理系統和新發展起來的資料倉儲管理系統,為粗集的資料探勘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實資訊表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點。現在國際上已經研製出來了一些基於粗集的工具應用軟體,如加拿大regina大學開發的kdd-r;美國kansas大學開發的lers等。

⑸覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選乙個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的演算法有michalski的aq11方法、洪家榮改進的aq15方法以及他的ae5方法。

⑹統計分析方法

在資料庫欄位項之間存在兩種關係:函式關係(能用函式公式表示的確定性關係)和相關關係(不能用函式公式表示,但仍是相關確定性關係),對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計(求大量資料中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變數間的數量關係)、相關分析(用相關係數來度量變數間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體引數之間是否存在差異)等。

⑺模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型–雲模型,並形成了雲理論。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:

資料統計分析和資料探勘有何區別?

資料探勘的聚類演算法和優勢

如何通過自學,成為資料探勘「高手」?

資料分析與資料探勘的區別和聯絡?

構建乙個資料探勘模型,主要分為哪幾步?

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

資料探勘的任務,主要有哪些?

關聯分析 association analysis 關聯規則挖掘由rakesh apwal等人首先提出。兩個或兩個以上變數的取值之間存在的規律性稱為關聯。資料關聯是資料庫中存在的一類重要的 可被發現的知識。關聯分為簡單關聯 時序關聯和因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。一般用支援度和...

大資料最常用的演算法,主要有哪些?

奧地利符號計算研究所 research institute for symbolic computation,簡稱risc 的christoph koutschan博士在自己的頁面上發布了一篇文章,提到他做了乙個調查,參與者大多數是計算機科學家,他請這些科學家投票選出最重要的演算法,以下是這次調查的...

大資料的使用方法,主要有哪些?

我們正處於福雷斯特研究公司所描述的 使用者時代 這個時代中驅動業務決策的不再是公司,而是使用者。基於這個原因,深度理解使用者的重要性已經遠勝以往,因此許多機構開始使用大資料技術來挖掘使用者資訊。收集和分析正確的資料 切實的理解使用者體驗及使用者行為已成為當務之急,下面將分享10個大資料的使用方法,可...