統計分析一般都是驗證性分析
資料分析中,不管是資料探勘領域還是統計分析領域,都較為側重驗證性,驗證性分析佔據非常重要的主導地位。不同的是,99%的統計分析都是驗證性分析,而資料探勘領域中驗證性分析的比例略低,能達到80%-90%左右。
實際業務中用什麼去主導分析?
實際工作中,當面臨乙個龐大的資料庫時,用什麼方法去主導自己的分析呢?如果僅僅針對業務痛點進行分析,這樣的思路沒錯,但是很快會發現,這樣會導致整個分析進入死胡同,並且一段時間後,大部分的資料分析工作都在做重複的分析內容,因此對商業的支撐便會出問題。此時需要反思資料分析是否有框架的指導,如果有框架的指導,還需要結合4p理論、4c理論以及客戶關係理論等。
如果不了解驗證分析背後框架或理論,則可以參考同行業中的相似框架。
資料探勘不強調精度
不同的資料分析領域量化的方式不同,傳統分析中更為關注精確性,如果指標做不到精確,則業務人員會對模型的分析結果產生質疑,尤其是問卷行業,對精度的要求更高。
然而,資料探勘領域,精度似乎沒有那麼重要,我更加關注指標的可解釋性以及模型與業務之間的契合性。
不同場景下資料探勘的含義不同
計算機模型、統計模型與資料探勘模型處理問題的出發點完全不同,例如什麼是大資料這個問題,不同場景下的含義是不同的:
實驗室場景中,由於場景樣本量較小,樣本獲取不易,因此對資料精確度要求較高,30個左右樣本量即為大資料。;
市場分析中,樣本量200左右即為大資料;
資料探勘領域中,通常以100萬為界進行大資料的區分。
因此,提到大資料時首先要清楚場景,否則很難將資料精確度、資料以及商業價值更好的契合起來。
資料探勘不太關心因果
通常,統計分析側重於模型的因果,然而,商業價值中,因果關係並不是那麼重要,**結果只會帶來成本的上公升,因此資料探勘模型不太關注因果,資料探勘領域更為關注成本與收益。
資料探勘更在乎成本與收益
統計分析一般都是驗證性分析 資料分析中,不管是資料探勘領域還是統計分析領域,都較為側重驗證性,驗證性分析佔據非常重要的主導地位。不同的是,99 的統計分析都是驗證性分析,而資料探勘領域中驗證性分析的比例略低,能達到80 90 左右。實際業務中用什麼去主導分析?實際工作中,當面臨乙個龐大的資料庫時,用...
資料探勘與CRM
現在的資料探勘專案多數都是游擊戰,這邊挖一挖那邊挖一挖,挖到最後還是一場空,還落了個 忽悠 綽號 回想資料探勘的乙個標準流程,那只是乙個資料探勘類專案的標桿而已,那對商業問題有沒有標桿可言呢?商業問題的產生多數是源於需求,需求源於客戶or消費者,換句話說多數都是在圍繞 如何讓上帝更上帝 展開的,所以...
資料探勘與OLAP
關於資料探勘的作用,berry and linoff的定義儘管有些言過其實,但清晰的描述了資料探勘的作用。分析報告給你後見之明 hindsight 統計分析給你先機 foresight 資料探勘給你洞察力 insight 舉個例子說。你看到孫悟空跟二郎神打仗,然後寫了個分析報告,說孫悟空在柔韌性上優...