我一直認為資料探勘是分為兩類的,一類是學術用的資料探勘,一類是商用的資料探勘。
學術的資料探勘注重演算法,往往是對演算法效率或者效果的不斷改進,然後從理論上證明演算法有多優秀,如果理論證明很難,則退而求其次,使用一些經典的資料集去驗證演算法確實有效。
商用的資料探勘注重結果和業務解釋,他不會管你使用的是神經網路還是決策樹,不管黑貓白貓,能搞準確並幫助業務提公升的就是好貓。在商用資料探勘中,有兩個環節尤其關鍵:
1、將業務問題如何轉化為資料探勘問題。在理論研究中,我們往往有明確的資料集和/或對應的目標變數,讓我們把精力主要放在構建更有效的模型上,但是在實踐中,往往只有乙個具體的業務問題,你要先理出解決這個問題的思路,然後才是考慮使用什麼資料探勘技術去解決,在考慮資料探勘技術的時候,以下一些問題無疑是關鍵的:
(1)什麼資料是可以獲得的,再完美的構想,如果沒有完整資料支援,也只能是想法;
(2)什麼演算法得到的結果是可以被業務使用的,例如:如果針對vip使用者,我們往往採用一對一的針對性營銷,這時能夠得到每個使用者的購買傾向/流失/提公升銷售/等等的評分無疑是有效的,但是如果針對的是普通使用者,我們往往是針對特定客戶群體制定營銷策略,這時針對特定的問題(如購買傾向),往往採用細分+不同群購買傾向比較+群特徵刻畫會更加有效。
2、將資料探勘結果轉化為業務上的具體措施。我經歷/看到了太多的資料探勘專案,技術結果很好,但是卻因為在業務上不具有操作性而被束之高閣,可惜啊……正如馬克思商品價值在商場上的實現比作商品生產者的「驚險的一跳」一樣,資料探勘結果的業務實現也是資料探勘專案的驚險一跳,如果這步實現不好,資料探勘就真成了中看不中用的花架子了。我們將在將來的時間專門來討論這個問題。
迭代開發實踐的兩個關鍵要素
迭代開發是開發未知領域新產品的必然選擇。但沒有經歷真正的迭代開發時,常常只能通過書籍霧裡看花。書籍裡描寫的經典場景是 乙個迭代收尾,然後發布半成品給使用者使用獲取反饋,使用者會說 喔這裡看上去不錯,但是實際使用時我需要在這裡看到.當迭代開發中發生這樣的場景,說明迭代開發過程是有效的,產品在不斷迭代和...
交際過程的兩個基本環節 善於交際的人都有這幾種特徵
人人都希望自己有好的人際關係,與他人建立好的人際關係,我們可以收穫很多,不僅能讓你收穫真正的朋友,還能幫助你事業更上一層樓。交際花在人際交往中能如魚得水,往往是因為他們有這幾種特徵,來看看你有沒有。如果乙個人總是抱怨,每天開口閉口都是抱怨的話,就會讓自己深陷負能量的泥沼,好運氣自然也會遠離你。生活實...
httpclient3 1中的兩個關鍵方法
在httpmethodbase類中,關鍵方法1 public int execute httpstate state,httpconnection conn 關鍵方法2 protected void readresponse httpstate state,httpconnection conn p...