《商業資料分析》讀書筆記(八)

2021-09-08 01:18:53 字數 4202 閱讀 6986

8.視覺化模型表現

基本概念:各種不確定性之下的模型效能視覺化;進一步思考到底要從資料探勘結果中得到什麼

主要技巧:效益曲線;累加相響應曲線;提公升曲線;roc曲線

排序而不是分類

效益曲線

roc圖和曲線

roc之下的區域(auc)

累積響應和提公升曲線

例子:客戶流失模型效能分析

總結第八章 視覺化模型效能

基本概念:在各種不確定性下視覺化模型效能

; 進一步考慮資料探勘結果所需的內容。

示例性技術:利潤曲線; 累積響應曲線; 提公升曲線; roc曲線。

預期收益評估模型有其劣勢:

有更強的數學性和公式,而且依賴於很多準確性,如對利潤和概率的準確性要求。

本章,將用更加直觀的視覺化來評估比較模型。

排名而不是分類

還是那句話,概率估計能比單純的分類提供更多資訊。

可以給能夠產出估計概率的分類器以不同的閾值,當閾值改變時,混淆矩陣也改變。

這給我們留下了兩個問題:我們如何比較不同的排名?而且,我們如何選擇合適的門檻?如果我們有準確的概率估計和明確的成本效益矩陣,那麼我們在討論期望值時已經回答了第二個問題:我們確定了我們的預期利潤高於期望水平(通常為零)的閾值。讓我們探索並擴充套件它的理念。

利潤曲線

上節講到,給可排名分類器以不同的閾值,會產生不同的混淆矩陣,每個混淆矩陣又會對應不同的預期收益。

圖8-2。三個分類器的利潤曲線。每條曲線顯示該分類器的預期累積利潤,因為目標消費者群體的比例逐漸增大。

請注意,所有四條曲線都在同一點開始和結束。這應該是有道理的,因為在左側,當沒有客戶成為目標時,沒有費用和零利潤; 在右側,每個人都是目標,所以每個分類器都執行相同的操作。在這兩者之間,我們會看到一些差異,具體取決於分類器如何訂購客戶。該隨機分類器表現最差,因為它甚至有機會選擇響應者或無響應者。在這裡測試的分類器中,標記為分類器2的分類器通過針對排名第一的50%的消費者產生200美元的最大利潤。如果您的目標只是為了實現利潤最大化並且您擁有無限的資源

(實際情況要受預算限制),則應選擇分類器2,使用它來為您的客戶群體評分,並將目標放在列表中的上半部分(最高50%)。

roc圖和 曲線

當您非常清楚地知道分類器的使用條件時,利潤曲線是合適的。具體而言,利潤計算有兩個關鍵條件:

該先驗概率。也就是說,目標人群中正負例項的比例,也稱為基本比率(通常指陽性比例)。回想一下,公式

7-2對p(p)和p(n)敏感。

該成本和收

益。該預期利潤對成本效益矩陣的不同單元的成本和收益的相對水平特別敏感。

如果已知目標人群先驗概率和成本效益估計並且預期穩定,則利潤曲線可能是視覺化模型效能的良好選擇。因為這個評估方法具體結合了實際。

處理不確定條件的一種方法是產生許多不同的方法 每種型號的預期利潤計算。這可能不是非常令人滿意:模型集,類先驗集和決策成本集在複雜性上倍增。這通常會給分析師留下大量的利潤圖,這些利潤圖難以管理,難以理解其含義,難以向利益相關者解釋。

然而,很多時候這兩者不確定或者不穩定。

另一種方法是,通過顯示整個效能可能性空間來適應不確定性。比如在欺詐檢測領域,欺詐比率,隨著時間和地點會發生變化;在電信客戶流失管理中,市場營銷會有不同的預算。

roc圖,x軸表示假陽性率,y軸表示真陽性率。因此,roc(接收器操作特性)圖描繪了分類器在收益(真陽性)和成本(誤報)之間做出的相對權衡。因為影響效能的就是這兩個比率。

乙個離散分類器是僅輸出類標籤(而不是排名)的分類器。如上所述,每個這樣的分類器產生乙個混淆矩陣,可以通過關於真陽性,假陽性,真陰性和假陰性的數量和比率的某些統計資料來概括。請注意,雖然混淆矩陣包含四個數字,但我們實際上只需要兩個比率:真陽性率或假陰性率,以及假陽性率或真陰性率。給定一對中的乙個,可以匯出另乙個,因為它們總和為1。通常使用真陽性率(tp

率:命中率)和假陽性率(fp

率:誤報率),我們將遵守該約定,因此roc圖將是有意義的。每個離散分類器產生對應於roc空間中的單個點的(fp

比率, tp

比率)對。圖

8-3中的分類器都是離散分類器。重要的是,對於以下內容,tp率只用實際正項的例項(擊中率),fp率僅使用實際負項的例項(誤報率)。

對於排名分類器,每個閾值對應不同的混淆矩陣,對應不同的roc圖中的點。

roc圖的乙個優點是它們 將分類器效能與使用分類器的條件分離。具體而言,它們與模擬例以及成本和收益無關。資料科學家可以在生成roc圖時繪製分類器的效能,因為他們知道分類器的位置和相對效能不會改變。感興趣的roc圖上的區域可能會隨著成本,收益和模擬例的變化而變化,但曲線本身不應該改變。

乙個重要的匯**計資料是roc

曲線下面積(auc)。顧名思義,這只是分類器曲線下的面積,表示為單位平方的一部分。其值範圍從0到1。雖然roc曲線提供的資訊多於其面積,但是當需要單個數字來總結效能時,或者當對操作條件一無所知時,auc非常有用。稍後,在示例:用於流失建模的效能分析中,我們將顯示auc統計資料的使用。現在,它足以認識到它是分類器**性的乙個很好的總體統計資料。

這裡就出現了對不確定性資訊的處理方法。

將所有的不確定性資訊都考慮在內,並計算它們的統計資料,對於auc來說,就是統計了設定各種可能閾值時的表現。

這裡涉及好幾種曲線,要明白它們的適用場景。

它衡量的是,與不利用模型相比,模型的**能力「變好」了多少。

直觀地,公升力了 分類器代表它提供的優於隨機猜測的優勢。公升力是指在負面例項上方的列表中「推公升」正面例項的程度。例如,考慮乙個包含100個客戶的列表,其中一半客戶流失(正面例項),一半不流失(負面例項)。如果你掃瞄列表並中途停止(代表0.5目標),你期望在上半部分看到多少積極因素?如果列表是隨機排序的,你可能只看到一半的正數(0.5),提公升0.5 / 0.5 = 1.如果列表是由有效的排名分類器排序的,那麼應該出現超過一半的正數在列表的上半部分,產生大於1的公升力。如果分類器是完美的,所有積極因素將排在榜單的頂部,所以在中途點我們會看到所有積極因素(1.0),提公升1.0 / 0.5 = 2。

如果群體中陽性的確切比例未知或在測試資料中未準確表示,則必須小心使用公升力曲線和累積響應曲線。與roc曲線不同,這些曲線假設測試集具有完全相同的目標class priors作為模型應用的人口。這是我們在開始時提到的簡化假設之一,它可以讓我們使用更直觀的視覺化。

提公升曲線還是不是很懂!大概意思懂,但是具體怎麼出來的不曉得。

這個x軸和閾值有關係嗎?

還是說x軸只是樣本的數量?

我覺得是後者。

x軸是測試樣本的數量。

如果這樣的話,確實更為直觀。

例子:流失模型的效能分析

這部分是演示所學過的評估方法!很重要!

將使用決策樹分類,邏輯回歸,knn,樸素貝葉斯來對同乙份模型進行進行訓練,然後用所學評估方法對他們訓練出來的模型進行評估比較。

重點在評估比較,而不是提公升模型效能。

測試我們訓練過得資料集:

簡單的分類準確度:

選擇什麼模型,絕對不能光看簡單準確度。

要與實際情況聯絡起來。

比如癌細胞**模型,哪怕將正常細胞誤判為癌細胞多一點也沒關係,但是最好不要放過任何乙個癌細胞!

auc值考慮到了先驗概率不平衡問題!它分離出去樣本不平衡和成本收益不同對而簡單精度沒有。

為了找到適合的模型,要對他們有些了解,並且要多嘗試,聯絡實際應用情景。

不過這裡作者是用交叉驗證的結果畫roc圖。如何做到?

模型評估這部分,從提公升曲線開始,到後來的流失模型評估案例,我不是特別明白。

《商業資料分析》讀書筆記(十二)

12.其他資料科學任務和技巧 基本概念 我們的作為許多共同資料科學技巧基礎的概念 熟悉資料科學基礎版塊的重要性 共發和關聯 找到互聯的項 衡量驚喜 提公升和槓桿 例子 啤酒和彩票 臉書喜歡之間的關聯 畫像 找到典型行為 關聯 和社交推薦 資料約簡,潛在資訊,和電影推薦 偏差,方差和模型融合 資料驅動...

pandas資料分析讀書筆記(二)

pd.isnull df 返回空的值為true,非空值為false 最常用的資料載入函式有 read csv 與read table pd.read table sep 如果是csv檔案,也可以用read table函式來讀取,只是需要設定分隔符sep pd.read csv header none...

讀書筆記 《深入淺出資料分析》讀書筆記

這本書呢它在每一章都安排了乙個企業問題,以解決乙個問題的形式去穿插知識點以及分析思路,可以快速掃讀了解一下分析思路還有思考一下課後問題。之前看見有些人推薦這本書,我才去看的,但是我並不推薦這本書,書裡的內容過於簡單,而且裡面的工具操作都落後了。確定問題 分解問題 將問題分解為更小的組塊 基準假設 評...