分類:先給類別特點,再做判斷(可用於離散變數的取值**:用來預報某些未知的或丟失的數字值
通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型**物件的類別的一種資料探勘和機器學習技術。
聚類:沒有類別的情況下,根據物件特徵自己聚類(自己總結各種特徵,得出結論)準確率可能沒有分類高
依據物以類聚的原理,將沒有類別的物件根據物件的特徵自動聚集成不同簇的過程,使得屬於同乙個簇的物件之間非常相似,屬於不同簇的物件之間不相似。其典型應用是客戶分群,根據客戶特徵把客聚成不同的客戶 群。
關聯:發現資料之間的關聯規則
舉例:購物車--啤酒尿布
數值**:用於連續變數的取值(**模型構建需要歷史資料的分析
常用的**方法是回歸分析。
異常點挖掘(孤立點分析):一些與資料一般特點不一致的孤立點, 在異常檢測中作用很大,例如,信用卡客戶欺詐檢測。
序列分析:對序列資料庫進行分析,從中挖掘出有意義模式的技術
社交網路分析:對社會網路的結構和屬性進行分析,以發現其中的區域性或全域性特點,發現其中有影響力的個人或組織,發現網路的動態變化規律等。社會網路(social network)是由個人或組織及其之間的 關係構成的網路。
學習筆記 資料預處理(資料探勘)
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...
資料分析學習筆記 資料探勘建模過程
1.確定資料探勘的目標 2.資料取樣 3.資料整理 4.構建資料模型 5.模型評價 6.模型應用 針對具體的資料探勘應用需求,首先要確定本次資料探勘的目標是什麼?系統完成之後能夠達到什麼樣的效果?要想充分發揮資料探勘的價值,必須對目標有乙個清晰明確的定義,即決定到底想幹什麼?在明確了需要進行資料探勘...