《資料探勘概念與技術》學習筆記 第一章

2021-10-01 08:24:34 字數 2723 閱讀 6588

資料探勘是從大量資料中發現有趣模式和知識的過程,它既不是一種廣告宣傳,也不是資料庫、統計學、機器學習或模式識別發展而來的技術的簡單轉換或應用。

機器學習的不斷發展,為資料探勘提供了很好的資料分析技術基礎,而統計學則幫助人們更好的理解資料的全貌,模式識別也在資料探勘的過程中被廣泛應用,因此,資料探勘實際上是多種資料分析技術共同發展才得以發展壯大的,並且與這些技術相輔相成,互相促進。

如果把資料探勘看作知識發現過程,則這一過程涉及以下步驟:

1.資料清理:消除雜訊和刪除不一致資料

2.資料整合:多種資料來源可以組合在一起

3.資料選擇:從資料庫中提取與分析人物相關的資料

4.資料變換:通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式

5.資料探勘:基本步驟,使用智慧型方法提取資料模式

6.模式估計:根據某種興趣度度量,識別代表知識的真正有趣的模式

7.知識表示:使用視覺化和知識表示技術,向使用者提供挖掘的知識

資料庫與資料倉儲的主要區別在於資料集的大小和對資料的處理方式。

資料庫處理資料的主要方法是操作型處理,即聯機事務處理oltp(on-line transaction processing),也可以稱為面向交易的處理系統,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢和修改。使用者較為關心操作的響應時間、資料的安全性、完整性和併發的支援使用者數等問題。傳統的資料庫系統作為資料管理的主要手段,主要用於操作型處理。

資料倉儲處理資料的主要方法是分析型處理,即聯機分析處理olap(on-line analytical processing),一般針對某些主題歷史資料進行分析處理,支援管理決策。

從邏輯層面理解,資料庫和資料倉儲都是通過資料庫軟體實現存放資料的地方。

1.特徵化

資料特徵化(data characterization)是目標類資料的一般特性或特徵的彙總。通常,通過查詢來收集對應於使用者指定類的資料。

例:allelectronics的客戶關係經理可能提出如下資料探勘任務:「彙總一年之內在allelectronics花費5000美元以上的顧客特徵」。結果可能是顧客的概況,如年齡在40~50歲、有工作、有很好的信用等級。

2.區分

資料區分(data discrimination)是將目標類資料物件的一般特性與乙個或多個對比類物件的一般特性進行比較。

例:allelectronics的客戶關係經理可能相比較兩組顧客——定期購買計算機產品的顧客和不經常購買這種產品的顧客。結果描述這些顧客比較的概況,例如頻繁購買計算機產品的顧客80%在20~40歲之間,受過大學教育;而不經常購買這種產品的顧客60%或者年齡太大或者太年輕,沒有大學學位。

3.關聯和相關性分析

關聯分析(association analysis)是在交易資料、關係資料或其他資訊載體中,查詢存在於專案集合或物件集合之間的頻繁模式、關聯、相關性或因果結構。

相關性分析(correlation analysis)是指對兩個或多個具備相關性的變數元素進行分析,從而衡量兩個因素的相關密切程度。

例:allelectronics市場部經理想知道哪些商品經常一塊被購買。從allelectronics的事務資料庫中挖掘出來的這種規則的乙個例子是

buy (x,「computer」)➡️buys(x,「software」)[support = 1%, confidence = 50%]

其中,x是變數,代表顧客。50%的置信度意味著如果一位顧客購買計算機,則購買軟體的可能性是50%。1%的支援度意味著所分析的事務的1%現實計算機與軟體一起被購買。

4.分類

分類(classification)是乙個過程,它找出描述和區分資料類或概念的模型(或函式),以便能夠使用模型**類標號未知的物件的類標號。

例:allelectronics的銷售經理想根據對**活動的三種反應,對商店的商品集合分類:好的反應、中等反應和沒有反應。根據商品的描述特性對這三類的每一種匯出模型。結果分類將最大限度地區別每一類,提供有組織的資料集描述。

5.回歸

回歸(regression)用來**缺失的或難以獲得的數值資料值,而不是類標號。

例:根據先前的銷售資料,**在allelectronics的未來銷售中每種商品的收益。

6.聚類

聚類(clustering)分析資料物件並根據物件之間的相似性生成物件的簇。

例:在allelectronics的顧客資料上進行聚類分析,識別顧客的同類子群,這些簇可以表示每個購物目標群。

7.離群點分析

離群點分析(outlier analysis)用於分析資料集中於一般資料的行為或模型不一致的資料物件。

例:通過檢測乙個給定賬號與正常的付費相比付款數額特別大,離群點分析可以發現信用卡欺詐性使用。

超市銷售部門需要利用資料探勘考察顧客在超市的消費行為,從中挖掘一些模式,利用這些模式更好的制定銷售策略。如啤酒、尿布的關聯規則分析,這是簡單的查詢處理或統計分析不能得到的。

區分是把有不同特徵的物件分隔開來,而分類在這個基礎上對有相同特徵的物件進行了類標號。

特徵化彙總了目標資料的一般性特徵,而聚類通過分析物件間相似性生成資料的簇,其中每個簇都以類似的一般性特徵。

分類用於描述和區分資料的模型,得到離散的類標號,回歸用於**缺失的資料值,得到連續數值。二者採用類似的方法考察資料的特徵和規律。

病原菌耐藥性資料,需要通過資料探勘方法來研究影響病原菌耐藥性發展狀況的因素和它們之間的關係。

基於聚類的方法和基於分類的方法。

資料清理、離群點檢測、不確定推理,個人隱私、針對性挖掘、更好地表達方式

需要處理異種資料集

生物資訊學,資料探勘成果與實際應用的結合。

資料探勘概念與技術筆記

1.什麼是資料探勘?資料探勘是從大量資料中提取或 挖掘 知識,很多人也把資料探勘視作 資料庫中的知識發現 kdd 資料探勘的步驟包括 2.什麼是資料倉儲?資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理 資料變換 資料整合 資料...

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...