資料探勘主要解決的四類問題
資料探勘非常清晰的界定了它所能解決的幾類問題。這是乙個高度的歸納,資料探勘的應用就是把這幾類問題演繹的乙個過程。下面讓我們來看看它所解決的四類問題是如何界定的:
1、分類問題
分類問題屬於**性的問題,但是它跟普通**問題的區別在於其**的結果是類別(如a、b、c三類)而不是乙個具體的數值(如55、65、75……)。
舉個例子,你和朋友在路上走著,迎面走來乙個人,你對朋友說:我猜這個人是個上海人,那麼這個問題就屬於分類問題;如果你對朋友說:我猜這個人的年齡在30歲左右,那麼這個問題就屬於後面要說到的**問題。
商業案例中,分類問題可謂是最多的:給你乙個客戶的相關資訊,**一下他未來一段時間是否會離網?信用度是好/一般/差?是否會使用你的某個產品?將來會成為你的高/中/低價值的客戶?是否會響應你的某個**活動?……。
有一種很特殊的分類問題,那就是「二分」問題,顯而易見,「二分」問題意味著**的分類結果只有兩個類:如是/否;好/壞;高/低……。這類問題也稱為0/1問題。之所以說它很特殊,主要是因為解決這類問題時,我們只需關注**屬於其中一類的概率即可,因為兩個類的概率可以互相推導。如**x=1的概率為p(x=1),那麼x=0的概率p(x=0)=1-p(x=1)。這一點是非常重要的。
可能很多人已經在關心資料探勘方法是怎麼**p(x=1)這個問題的了,其實並不難。解決這類問題的乙個大前提就是通過歷史資料的收集,已經明確知道了某些使用者的分類結果,如已經收集到了10000個使用者的分類結果,其中7000個是屬於「1」這類;3000個屬於「0」這類。伴隨著收集到分類結果的同時,還收集了這10000個使用者的若干特徵(指標、變數)。這樣的資料集一般在資料探勘中被稱為訓練集,顧名思義,分類**的規則就是通過這個資料集訓練出來的。訓練的大概思路是這樣的:對所有已經收集到的特徵/變數分別進行分析,尋找與目標0/1變數相關的特徵/變數,然後歸納出p(x=1)與篩選出來的相關特徵/變數之間的關係(不同方法歸納出來的關係的表達方式是各不相同的,如回歸的方法是通過函式關係式,決策樹方法是通過規則集)。
如需了解細節,請查閱:決策樹、logistic回歸、判別分析、神經網路、inpurity 、entropy、chi-square、gini、odds、odds ratio……等相關知識。
2、聚類問題
聚類問題不屬於**性的問題,它主要解決的是把一群物件劃分成若干個組的問題。劃分的依據是聚類問題的核心。所謂「物以類聚,人以群分」,故得名聚類。
聚類問題容易與分類問題混淆,主要是語言表達的原因,因為我們常說這樣的話:「根據客戶的消費行為,我們把客戶分成三個類,第乙個類的主要特徵是……」,實際上這是乙個聚類問題,但是在表達上容易讓我們誤解為這是個分類問題。分類問題與聚類問題是有本質區別的:分類問題是**乙個未知類別的使用者屬於哪個類別(相當於做單選題),而聚類問題是根據選定的指標,對一群使用者進行劃分(相當於做開放式的論述題),它不屬於**問題。
聚類問題在商業案例中也是乙個非常常見的,例如需要選擇若干個指標(如價值、成本、使用的產品等)對已有的使用者群進行劃分:特徵相似的使用者聚為一類,特徵不同的使用者分屬於不同的類。
聚類的方法層出不窮,基於使用者間彼此距離的長短來對使用者進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的:首先確定選擇哪些指針對使用者進行聚類;然後在選擇的指標上計算使用者彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都有相應的取值,可以看作多維空間中的乙個點,使用者彼此間的距離就可理解為兩者之間的直線距離。);最後聚類方法把彼此距離比較短的使用者聚為一類,類與類之間的距離相對比較長。
如需了解細節,請查閱:聚類分析、系統聚類、k-means聚類、歐氏距離、閔氏距離、馬氏距離等知識。
3、關聯問題
說起關聯問題,可能要從「啤酒和尿布」說起了。有人說啤酒和尿布是沃爾瑪超市的乙個經典案例,也有人說,是為了宣傳資料探勘/資料倉儲而編造出來的虛構的「託」。不管如何,「啤酒和尿布」給了我們乙個啟示:世界上的萬事萬物都有著千絲萬縷的聯絡,我們要善於發現這種關聯。
關聯分析要解決的主要問題是:一群使用者購買了很多產品之後,哪些產品同時購買的機率比較高?買了a產品的同時買哪個產品的機率比較高?可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫「購物籃分析」,英文簡稱為mba,當然此mba非彼mba,意為market basket analysis。
如果在研究的問題中,乙個使用者購買的所有產品假定是同時一次性購買的,分析的重點就是所有使用者購買的產品之間關聯性;如果假定乙個使用者購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之為序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。
關聯分析有三個非常重要的概念,那就是「三度」:支援度、可信度、提公升度。假設有10000個人購買了產品,其中購買a產品的人是1000個,購買b產品的人是2000個,ab同時購買的人是800個。支援度指的是關聯的產品(假定a產品和b產品關聯)同時購買的人數佔總人數的比例,即800/10000=8%,有8%的使用者同時購買了a和b兩個產品;可信度指的是在購買了乙個產品之後購買另外乙個產品的可能性,例如購買了a產品之後購買b產品的可信度=800/1000=80%,即80%的使用者在購買了a產品之後會購買b產品;提公升度就是在購買a產品這個條件下購買b產品的可能性與沒有這個條件下購買b產品的可能性之比,沒有任何條件下購買b產品可能性=2000/10000=20%,那麼提公升度=80%/20%=4。
4、**問題
此處說的**問題指的是狹義的**,並不包含前面闡述的分類問題,因為分類問題也屬於**。一般來說我們談**問題主要指**變數的取值為連續數值型的情況。
例如天氣預報**明天的氣溫、國家**下一年度的gdp增長率、電信運營商**下一年的收入、使用者數等?
**問題的解決更多的是採用統計學的技術,例如回歸分析和時間序列分析。回歸分析是一種非常古典而且影響深遠的統計方法,最早是由達爾文的表弟高爾頓在研究生物統計中提出來的方法,它的主要目的是研究目標變數與影響它的若干相關變數之間的關係,通過擬和類似y=ax1+bx2+……的關係式來揭示變數之間的關係。通過這個關係式,在給定一組x1、x2……的取值之後就可以**未知的y值。
相對來說,用於**問題的回歸分析在商業中的應用要遠遠少於在醫學、心理學、自然科學中的應用。最主要的原因是後者是更偏向於自然科學的理論研究,需要有理論支援的實證分析,而在商業統計分析中,更多的使用描述性統計和報表去揭示過去發生了什麼,或者是應用性更強的分類、聚類問題。
資料探勘的應用領域
資料探勘一開始就是面向應用而誕生的,前面說到資料探勘主要解決四大類的問題,如果把這些問題演繹到不同的行業,我們將看到資料探勘的應用是非常廣泛的。
以我們經常接觸的移動通訊行業來說,結合前面提到的四大類問題,我們看看資料探勘在通訊行業都有哪些應用。
分類問題:
離網**:**使用者在未來一段時間內離網的風險。
信用申請評分:根據使用者資料評估使用者是否可以授信(如預付費使用者可以透支、後付費使用者可以延長帳期)。
信用行為評分:根據使用者過去的消費行為特徵評估信用得分高低,便於調整話費透支額度或者付費帳期。
定位產品(如彩鈴、wap、增值資料業務等)目標使用者:構建模型篩選產品營銷的目標使用者群。
聚類問題:
使用者細分:選擇若干指標把使用者群聚為若干個組,組內特徵相似、組間特徵差異明顯。當然使用者細分的方法很多,不一定都是採用聚類方法。聚類的優點是可以綜合處理多維變數,缺點是隨之帶來的不易解釋性。一種便於解釋的細分方法是結合業務對使用者群進行人為的劃分,習慣上稱為pre-define的方法。這種方法的優點是便於解釋且應用性強,缺點是對業務要求比較高,劃分邊界比較難定,對多維變數處理有難度。
關聯問題:
**問題:
比較成型的應用不多,一般多為使用者數**、收入**等。
資料探勘主要解決的四類問題
資料探勘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變數的必要條件,而分析人員的思維模式從另外乙個方面也保障了設計變數的結構化和完整性。所以我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。一般來說,資料探勘主要側重...
資料探勘主要解決的四類問題
資料探勘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變數的必要條件,而分析人員的思維模式從另外乙個方面也保障了設計變數的結構化和完整性。所以我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。一般來說,資料探勘主要側重...
資料探勘主要解決的四類問題
資料探勘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變數的必要條件,而分析人員的思維模式從另外乙個方面也保障了設計變數的結構化和完整性。所以我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。一般來說,資料探勘主要側重...