資料探勘側重應用,理論不是很難理解,快考試了,回顧一下常見的概念。
資料探勘其實就是在一堆資料裡找規律來**。資料探勘的過程主要有資料準備和資料探勘,資料準備的過程很重要,甚至超過了挖掘,涉及到的概念有資料倉儲、資料整合;資料探勘主要解決四類問題:分類問題、聚類問題、關聯問題、**問題。
資料倉儲其實也是乙個資料庫,常見的資料庫側重事務處理,資料倉儲側重分析決策。還有乙個資料集市,它與資料倉儲的區別是資料倉儲是企業範圍的,多個主題建模;資料集市是部門範圍的,單個主題建模。
分類就是將物件和已存在的類對應起來;聚類就是物以類聚;分類和聚類的區別就是分類時類別已經存在,聚類時還沒有類別。
分類的主要方法包括:決策樹分類法、基於規則的分類法、神經網路、支援向量機、樸素貝葉斯分類法等。與決策樹相關的演算法有:cls, id3,c4.5,cart。id3演算法的核心是在決策樹各節點擊擇屬性時用資訊增益作為屬性的選擇標準。
聚類方法有劃分聚類方法(比如k-means)、層次聚類方法、基於密度的聚類方法、基於網格的聚類方法、基於模型的聚類方法。
聯絡是普遍存在的,關聯問題就是發現聯絡,就像傳說中的啤酒尿布。下面是從網上發現的關於關聯分析不錯的描述。
關聯分析要解決的主要問題是:一群使用者購買了很多產品之後,哪些產品同時購買的機率比較高?買了a產品的同時買哪個產品的機率比較高?可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫「購物籃分析」。
如果在研究的問題中,乙個使用者購買的所有產品假定是同時一次性購買的,分析的重點就是所有使用者購買的產品之間關聯性;如果假定乙個使用者購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之為序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。
關聯分析有三個非常重要的概念,那就是「三度」:支援度、可信度、提公升度。假設有10000個人購買了產品,其中購買a產品的人是1000個,購買b產品的人是2000個,ab同時購買的人是800個。支援度指的是關聯的產品(假定a產品和b產品關聯)同時購買的人數佔總人數的比例,即800/10000=8%,有8%的使用者同時購買了a和b兩個產品;可信度指的是在購買了乙個產品之後購買另外乙個產品的可能性,例如購買了a產品之後購買b產品的可信度=800/1000=80%,即80%的使用者在購買了a產品之後會購買b產品;提公升度就是在購買a產品這個條件下購買b產品的可能性與沒有這個條件下購買b產品的可能性之比,沒有任何條件下購買b產品可能性=2000/10000=20%,那麼提公升度=80%/20%=4。
資料探勘的典型演算法:
*id3,c4.5(決策樹)
*thek
-means algorithm(聚類)
supportvector machines(支援向量機)
*theapriorialgorithm(關聯規則)
theem algorithm(迭代優化演算法)
*pagerank(網頁等級/重要性演算法)
*adaboost(迭代分類演算法)
*
k
nn:k
-nearestneighbor classification(基於事例的學習)
*****bayes(貝葉斯學習)
cart(增量學習演算法)
資料探勘概念
資料探勘是從海量的資料中抽取感興趣的 有價值的 隱含的 以前沒有用但是潛在有用資訊的 模式和知識的過程。資料探勘是從存放在資料庫 資料倉儲中或其它資訊庫中的大量資料中挖掘有趣知識的過程。研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。分類 ...
資料探勘概念與技術 文字挖掘
1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...
資料探勘之基礎概念
任務 根據其他屬性的值,特定屬性的值。通常資料探勘的任務 描述任務 匯出概括資料中潛聯絡的模式 四種主要的資料探勘任務 建模 關聯分析 聚類分析 異常檢測 建模 分類 用於 離散的目標變數 回歸 用於 連續的目標變數 關聯分析 用於發現描述資料中強關聯特徵的模式。異常檢測 識別器特徵顯著不同於其他資...