資料探勘入門

2021-10-04 08:59:18 字數 1126 閱讀 5830

**性挖掘

對當前資料進行推斷,以做出**。**主要包括分類、回歸。

分類:將樣本劃分到幾個預定義類,屬於離散。

回歸:將樣本對映到乙個真實值**變數上,連續值。

描述資料

描述資料庫中資料的一般性質。聚類:將樣本劃分為不同類(無預定義類),關聯規則發現——發現資料集中相關性。聚類分析,在發現緊密相關的觀測值組群,可以在沒有標籤的情況下將所有的資料分為合適的幾類來進行分析或者降維。異常檢測,聚類將相似的資料聚合在一起,而異常檢測將離群太遠的點給剔除。

1.神經網路方法

神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分布儲存和高度容錯等特性非常適合解決資料探勘的問題。

2.遺傳演算法

決策樹是一種常用於**模型的演算法,它通過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。

4.粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,粗集處理的物件是類似二維關係表的資訊表。

5.覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選乙個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。

6.統計分析方法

在資料庫欄位項之間存在兩種關係:函式關係和相關關係,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計、回歸分析、相關分析、差異分析等。

7.模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。

資料探勘的基本步驟

1.解讀需求

2.蒐集資料

3.預處理資料

4.評估模型

5.解釋模型

資料探勘入門系列 資料探勘基礎

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...

資料探勘入門 分詞

隨著社會化資料大量產生,硬體速度上公升 成本降低,大資料技術的落地實現,資料這座金山已浮出水面。這裡,嚴瀾將帶我們逐漸開啟這座金山 從 分詞 開始挖掘資料。1.基於詞典的分詞,需要先預設乙個分詞詞典,比如上面句子切分出來的 假如 上午 這些詞先存放在詞典,然後把句子切分成單字組合成詞語去詞典裡查詢,...

資料探勘(入門知識)

最近在看一本叫 大話資料探勘 的書,簡單的摘要總結一些資料探勘的基礎理論知識 1.data mining 在學術界也叫kdd knowledge discovery in database 就是從大量的 不完全的 有雜訊的 模糊的 隨機的 資料中,提取隱含在其中的,我們事先不知道的 又潛在有用資訊的...