「分析報告給你後見之明 (hindsight);統計分析給你先機 (foresight);資料探勘給你洞察力 (insight)」。
舉個例子說。
你看到孫悟空跟二郎神打仗,然後寫了個分析報告,說孫悟空在柔韌性上優勢明顯,二郎神在力氣上出類拔萃,所以剛開始不相上下;結果兩個人跑到竹林裡,在竹子上面打,孫悟空的優勢發揮出來,所以孫悟空贏了。這叫分析報告。
孫悟空要跟二郎神打架了,有個賭徒找你**。你做了個統計,發現兩人鬥爭4567次,其中孫悟空贏3456次。另外,孫悟空鬥牛魔王,勝率是89%,二郎神鬥牛魔王勝率是71%。你得出趨勢是孫悟空贏。因為你假設了這次勝利跟歷史的關係,根據經驗作了乙個假設。這叫統計分析。
你什麼都沒做,讓計算機自己做關聯分析,自動找到了出身、教育、經驗、單身四個因素。得出結論是孫悟空贏。計算機通過分析發現貧苦出身的孩子一般比皇親國戚功夫練得刻苦;打架經驗豐富的人因為擅長利用環境而機會更多;在都遇得到明師的情況下,貧苦出身的孩子功夫可能會高些;單身的人功夫總比同樣環境非單身的高。孫悟空遇到的名師不亞於二郎神,而打架經驗絕對豐富,並且單身,所以這次打頭,孫悟空贏。這叫資料探勘。
資料探勘跟olap的區別在於它沒有假設,讓計算機找出這種背後的關係,而這種關係可能是你所想得到的,也可能是所想不到的。比如資料探勘找出的結果發現在2億條打鬥記錄中,姓孫的跟姓楊的打,總是姓孫的勝利,孫悟空姓孫,所以,悟空勝利。
用在現實中,我們舉個例子來說,做olap分析,我們找找哪些人總是不及時向電信運營商繳錢,一般會分析收入低的人往往會繳費不及時。通過分析,發現不及時繳錢的窮人佔71%。而資料探勘則不同,它自己去分析原因。原因可能是,家住在五環以外的人,不及時繳錢。這些結論對推進工作有很深的價值,比如在五環外作市場調研,發現需要建立更多的合作渠道以方便繳費。這是資料探勘的價值。
資料探勘總結之牛人篇
以下是咱經常去的資料探勘牛人的 吸收了很多精華,也開闊了自己的思路。很感謝他們分享的思想,很是值得學習。韓家煒jian pei 資料探勘牛人,經常來中國講授資料探勘課程。個人主頁上有他發表的資料探勘相關 課程資訊,還有一些推薦書籍和源 mohammed j.zaki 資料探勘牛人,個人主頁裡面有很多...
牛人的程式設計理解過程
1 指標很難用,考得很煩 指標很好用,正確的用法不會出錯 引用效果更好 2 const幹嘛的,多餘 哦,可以這樣用 還可以那樣用 還真有效果 omg,原來還可以這樣用 3 異常是什麼,好像經常說 我都工作幾年了,還不知道到底有什麼存在的意義 哦,原來是這樣,這種情況下沒它還不行 總結出錯誤處理機制 ...
資料探勘之KMeans演算法應用與簡單理解
一 背景 煤礦地磅產生了一系列資料 我想從這些資料中,取出最能反映當前車輛重量的資料 有很多資料是車輛上磅過程中產生的資料 我於是想到了聚類演算法kmeans,該演算法思想比較簡單。二 演算法步驟 1 從樣本中隨機取出k個值,作為初始中心 2 以k個中心劃分這些資料,分為k個組 3 重新計算出每個組...