無論在報紙、雜誌、機場**,還是在酒吧的閒談中,大資料都成了乙個熱門話題。每個人都在談論這個時尚的話題,但迄今為止只有極少數企業真正成功的運用這一技術!導致這一情況的重要原因就是企業對建立可操作的大資料分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經驗,我們認為:為了取得成功,大資料分析模型需要滿足如下幾種要求:
(1)業務相關性。業務相關性是對分析模型的第乙個關鍵要求。分析模型必須能夠解決特定的商業問題。那些效能優越,卻不能解決商業問題的模型是毫無意義的。顯然,在模型開發前,對商業背景和業務問題有全面的理解必不可少。例如,在保險欺詐檢測問題中,必須在一開始對如何定義、衡量和管理欺詐有清晰的界定。
(2)統計效能。影響模型成功的另乙個重要關鍵因素是模型效能表現。換句話說,從統計意義的角度,分析模型應該顯著提高**或描述的效能。根據分析問題的型別不同,常常採用不同型別的效能評價指標。在客戶細分,統計評價指標主要評價對比簇內的相似性與簇間的差異性;在客戶流失**中,主要評價模型是否賦予了潛在流失客戶的較高得分。
(3)解釋性和合理性。解釋性是指分析模型容易為決策者所理解,合理性是指模型與專家的預期和業務知識相一致。解釋能力和合理性都是主觀判斷,取決於決策者的知識和經驗。這兩個因素與統計效能分析之間常常是矛盾的,譬如:複雜神經網路和隨機森林模型**效能較好,但是解釋性較差。所以,決策者需要在兩者之間尋找平衡點。在信用風險分析等應用場景中,解釋性和合理性是非常重要的因素,而在欺詐檢測和營銷響應建模中,這一因素就不是那麼重要了。
(4)執行效率。執行效率涉及模型評估、監測、檢驗及重建過程中所需投入的時間。從這個因素來看,很明顯的神經網路或隨機森林效率較低,而回歸模型和決策樹等更有效率。在信用卡欺詐檢測等業務場景中,執行效率是非常重要的,因為所有的決策必須在信用卡交易開始後幾秒鐘內完成。
(5)經濟成本。經濟成本是收集模型所需資料、執行模型以及分析模型結果的過程中所投入的成本,此外還包括引入外部資料和模型的成本。在分析模型的經濟回報時,所有的這些成本都必須考慮在內,通常不是能簡單直接計算出來的。
(6)合規性。在很多行業中,合規性變得越來越重要。合規性是指模型對現有制度和法律的遵從程度。在信用風險領域,分析模型符合巴塞爾協議ii和iii的規定尤其重要。而在保險行業中,模型則必須遵從歐盟償付能力協議(solvency ii) 。
總結以上,在本部落格文章中,我們簡要論述了成功構建資料分析模型的關鍵因素。如我們所指出的那樣,每個因素的重要性取決於模型應用場景。
成功設計資料庫的關鍵因素
成功設計資料庫的關鍵因素 摘自經典教材 資料庫系統設計 實現與管理 盡可能多與使用者交流。在資料建模的整個過程中遵循結構化的方法學。使用資料驅動的方法。這個我不是很理解,感覺實際實施過程中還是由業務 使用者需求驅動的 咱們不妨把 資料驅動 改為 資料需求 驅動 在資料模型中綜合考慮結構性和完整性。資...
信訪分析 大資料 常見的大資料分析模型
今天我們主要為大家講解在做大資料視覺化時,有哪些常見得到資料分析模型。資料模型可以從兩個角度來區分 資料和業務。統計資料視角的實體模型通常指的是統計分析或大資料探勘 深度學習 人工智慧技術等種類的實體模型,這些模型是從科學研究視角去往界定的。1 降維 對大量的資料和大規模的資料進行資料探勘時,往往會...
資料分析之遊戲內關鍵資料分析
什麼是遊戲的相關性,作為乙個分析的 偵探 那麼遊戲的相關性也就是線索,熟悉遊戲的相關性的 心法 就可以快速和正確選擇分析的切入點。本文主要通過找到lol遊戲中角色金幣,進而演示。基礎篇 演示直接找到角色金幣邏輯,高階篇 中將會演示如何通過金幣的和交易邏輯的相關性找到角色的裝備 1 選定第乙個裝備欄位...