有感知識點:
資料探勘又稱資料中的知識發現(kdd),知識發現過程主要由以下步驟的迭代序列組成:
資料清理(消除雜訊和刪除不一致資料等)
資料整合(多種資料來源可以組合在一起)
資料選擇(從資料庫中提取與分析任務相關的資料)
資料變化(通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式)
資料探勘(基本步驟,使用智慧型方法提取資料模式)
模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)
知識表示(使用視覺化和知識表示技術,向使用者提供挖掘的知識)
故資料探勘是其中乙個步驟,有些人也代稱為整個知識發現過程。
資料探勘是從大量資料中挖掘有趣模式和知識的過程。資料來源包括資料庫、資料倉儲、web、其他資訊儲存庫或動態地流入系統的資料log。
資料探勘功能
型別特徵化與區分
描述性頻繁模式、關聯和相關性分析
描述性分類與回歸
**性聚類分析
描述性離群點分析
描述性描述性挖掘任務刻畫目標資料中資料的一般性質。
**性挖掘任務在當前資料上進行歸納,以便做出**。
商務智慧型
對於客戶關係管理,進行聚類根據顧客的相似性進行分組,對其進行定**務。
web搜尋引擎
有效性和可伸縮性
資料庫型別的多樣性
資料探勘與社會
《資料探勘概念與技術》書記 3
歡迎來到現實世界!資料預處理技術 這些技術不是互相排斥的,可以一起使用。資料清理可能涉及糾正錯誤資料的變換。資料質量包括準確性 完整性 一致性 時效性 可信性和可解釋性。現實是你希望使用資料探勘技術分析的資料時不完整的 缺少屬性值或某些感興趣的屬性,或僅包含聚集資料 不正確的或含雜訊的 包含錯誤或存...
資料探勘概念與技術
在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...
資料探勘概念與技術 文字挖掘
1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...