目錄2 資料探勘技術高階
2.2 資料探勘技術的績效增益
在現實工作中,不是所有的問題都需要用建模來解決,一些簡單的問題如果能用簡單方法,就不要使用複雜的解決方案。這樣既提公升了效率,也減少了出錯的可能。即使是非常複雜的問題,我們往往也需要首先用簡單的方法,對問題進行乙個概括和總覽 ——描述性統計。
描述性統計,是指用圖(直方圖、散點圖…)或表來對資料總體中有關變數進行統計,包括頻數分析、集中趨勢分析、離散程度分析、資料分布、統計圖形。
在實際應用中(如資料eda分析),常把變數分為連續型和離散型,描述性統計分析常用的統計量有:
資料探勘中用到的演算法,可以從演算法理論層面、演算法學習方式、演算法學習任務三個角度進行分類。
2.1.1 分類一:演算法理論層面
數理統計演算法,建模一般流程遵循①假設檢驗 → ②建模引數選擇 → ③構建模型 → ④假設檢驗評估模型 → ⑤引數調優 這5個步驟。而機器學習演算法建模,一般流程是乙個迴圈往復、不斷迭代、不斷優化的過程,詳見下圖:
在實際應用場景中,雖然數理統計演算法是基於統計學,但它們也常常用機器學習的建模思路進行應用。總之,特徵是對客觀世界的抽象,演算法則是對事物執行規律內嵌邏輯的還原,演算法作用於特徵從而無限逼近客觀事物執行規律的過程,則是機器學習或者資料探勘的過程。
2.1.2 分類二:演算法學習方式
2.1.3 分類三:演算法學習任務
各種演算法的學習任務,本質就是資料探勘的任務,上述學習任務可分為兩大類:
思考乙個問題:資料探勘是如何提公升業務的?一般來說,提高業務績效有三種方法——創意、優惠、名單。名單指的是營銷活動的具體物件,如根據名單向客戶進行營銷活動,提高客戶的購買概率,進而提高營銷活動的績效。創意和優惠這兩種方法,主要是通過人力,物力,財力等實現,而名單這種方法則是通過資料探勘技術實現的,可見資料探勘技術的績效增益,主要是通過向使用者提供「名單」得以實現的。
初識資料探勘(data mining)
1 介紹 資料探勘就是從大量的 不完全的 有雜訊的 模糊的 隨機的實際應用資料中,提取隱含在其中的 人們事先不知道的,但又潛在的有用的資訊和知識的過程。2 特點 處理的資料規模較大 要能快速做出反應以隨時提高決策支援 資料探勘的規則基於統計規律,即所發現的規則並不適用於所有資料,而達到某一臨界值時,...
Data mining基礎之認識資料 2
不想當專案負責人的技術人員不是好的科研人員 一 中心趨勢度量 中位數 對傾斜 非對稱 資料,這是更好的度量,是有序資料值的中間值 眾數中列數 最大和最小值的平均值 正傾斜 眾數出現在小於中位數的值上 負傾斜 眾數出現在大於中位數的值上 二 度量資料散布hair color 0 頭髮為黑色 hair ...
SPSS Modeler資料探勘 資料探勘概述
資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...