大資料時代,你是否擁有 文科思維 ?

2022-07-27 19:00:22 字數 3443 閱讀 6335

最近,我所在的團隊為一家車貸公司搭建了一套信審資料模型,該模型可以根據貸款申請者的資料自動**其在未來能否按時還款,決定是否通過使用者的貸款申請。

相比人工信審,模型**是全自動的機器過程,在保證判斷準確率的前提下,它能為公司節省大量的人力成本。

信審員:「你有幾個兒子?」

貸款申請者:「三個。」

信審員:「剛剛打**給你老婆,她說你們只有兩個兒子,這是怎麼回事?」

貸款申請者身旁傳來竊竊私語……

對話進行到這裡時,信審人員會在系統內記錄下該申請者和配偶提供的資訊不一致,存在可能的騙貸行為,這將成為該申請者能否被成功授信的「減分項」。

雖然目的均為實現快速、準確的信貸審核,但資料建模的工作邏輯與人工審核存在明顯的差異。資料分析專家面對的是一串串數字,而業務人員面對的是鮮活的申請者。

資料分析出發點所有客戶的申請資料,包括此人性別、年齡、資產情況等基本資訊,以及一些來自第三方平台的風險資料(如該申請者有無犯罪記錄),簡單地說,我們工作的出發點是一張excel**。

反觀另一面,信貸審核人員在處理每筆信貸業務時,他們除了面對每個申請者的具體資訊,還會通過**核實申請者的身份,最終作出人工決策。

資料**是分析師們每天的工作夥伴

初入資料行業時,我以為只要玩轉手中各種複雜的**,寫一手漂亮的建模**,從透視表中找到有趣的發現,就足以成就乙個讓客戶滿意的專案。

然而,老闆在入職第一天就語重心長地告訴我:「大資料是有侷限性的,它無法替代你對真實業務的體會,這也是我們為何要駐場工作。」

在客戶的呼叫中心駐場1個多月後,我似乎明白了老闆掛在嘴邊的這種「體會」。

大資料是我們認識世界的一種方式,它將關於你的一切量化為很多資料標籤,然後將它們儲存在**裡,比如你的性別是男性,今天打車回家花了30元,週末玩了兩小時王者榮耀。

大資料的優勢很明顯,它具有乙個對所有人通用的結構,每個使用者這些維度的資料都會被記錄在**中,**知道每個使用者的雙11消費能力,今日頭條對你感興趣的新聞瞭如指掌,信貸公司記載了你過往的信用記錄。

然而,大資料的不足之處在於,它僅僅是對世界的乙個切片,對於切片之外的事物一無所知。

面試官面試新員工時,首先會檢視申請者的簡歷,簡歷上的教育背景、工作經驗、語言能力是以固定結構記錄的資料,然而申請者在面試中給予面試官的感受,比如她是氣場強大的女神還是平易近人的萌妹子,大資料則無法給予答案。

在最近的專案中,我們通過資料發現那些教育程度較高的貸款申請者更容易在未來逾期還款,這聽上去有些違背常理,然而精通業務的經理告訴我們這是合理的現象,那些所謂的高學歷是申請者在填寫**時編造的。後者並不是大資料能夠捕捉的行為,然而對理解申請者的行為至關重要。

金融大鱷喬治·索羅斯的團隊在做出重要投資決策時,他們不僅僅關注能被寫進**的金融資料,同時親自前往歐洲各地,在當地的酒吧與人們聊天,了解未來可能的巨集觀政策變化,索羅斯甚至依賴自己的背痛預判可能的風險。這些無法被標準地量化,甚至聽上去有些荒謬的決策標準卻成就了他們在2023年9月的「黑色星期三」狙擊英鎊,幾周內賺取11億美元的空前收益。

通常,我們可以把人類認識世界的途徑分為兩種:

一種是如今家喻戶曉的大資料;

另一種則是一直長久存在,卻往往在這個時代被我們忽視的「厚資料」。如果將大資料比作對客觀世界的標準化切片,厚資料則是我們在每個獨特場景的深度感知。

簡歷上的文字是大資料,而面試官對申請者的感覺是厚資料;**中教育程度一列等於「大學」是大資料,而填寫者在背後的偽裝是厚資料;**、匯率的歷史走勢是大資料,而酒吧人們的閒聊和索羅斯的背痛是厚資料。

大資料的不足之處在於它缺乏厚資料攜帶的場景。存在主義哲學家海德格爾(martin heidegger)提出了「存在」(being)這一概念,它指的是世間萬物存在的場景(context),我們對於任何事物的理解都不能將其孤立為乙個元素,而是應考慮這個元素所處的具體場景,以及它與其它元素的相互關係。

海德格爾等人在他們的現象學(phenomenology)中對這個概念進行了更詳細的闡釋,現象學的目的在於描述事物真實存在的方式,而不是我們覺得他們應該存在的方式,而事物「真實存在的方式」必然離不開它所處的場景,而不是像大資料那樣對現實進行標準化的切片。

需要注意的是,現象學中的「真實存在」,並不是指這件事必須在客觀上是正確的,比如「世界上只有男和女兩種性別」,而是當我們在某一場景下聽到乙個現象學的描述,被問及「你覺得是這樣嗎?」時,我們會點頭表示同意。

同樣的一杯紅酒,在點亮燭光的法國餐廳與嘈雜的辦公桌前飲用,注定是不一樣的感受,雖然它們的化學質地是相同的。

同樣是乙個小時,在思修課堂和情人坡度過,必然是不同的長度,雖然它們的自然屬性沒有差異。

兩名被資料標記有存在犯罪記錄的貸款申請者,雖然資料將它們一視同仁,然而一位只是過失的交通肇事,另一位則有搶劫銀行的前科,他們在未來的還款能力或許大相徑庭。

身為資料工作者,當然希望資料和演算法能盡可能多地代替人類的工作,但正如我們在專案中看到的,現實並非如此,僅僅面對資料和演算法並無法洞察每個申請者所處的獨特場景。機器學習與人類決策是相互補充,而非相互替代的關係。

這也是為什麼,資料分析師們一定要駐場工作,因為只有像信審專員那樣身處業務前線,才能對那些貸款的申請者形成更加深刻的體會。

決定在**讀大學,先看學校的綜合及專業排名,不在乎學長學姐們分享的體會。

後者事實上代表了一種以現象學為基礎的「文科思維」,即我們只關注每個獨特場景下的主觀體驗,不會嘗試將許多場景標準化,然後貼上統一的資料標籤。

研究文科思維的專家christian madsbjerg認為文科思維是培養我們對外界的敏感度的重要途徑,所謂的敏感度,指的是我們察覺事物間微妙差別的能力。正如兩杯紅酒,在不同地點的1小時,兩名資料畫像相同的申請者,辨別它們之間的差異需要的正是文科思維。

madsbjerg指出學習諸如藝術、歷史、哲學、社會學、人類學這些人文學科是培養文科思維的重要手段。因為這些學科中存在大量基於具體場景的思考和感知,比如藝術課教你欣賞達文西的作品,社會學家擅長消費者深度訪談,人類學家喜歡實地觀察原始部落等,它們不會教你如何將世界編碼成一張資料**,卻能培養你洞察世間微妙區別的能力。

前段時間看了《看不見的客人》,這是一部懸疑劇,劇情圍繞一名成功的銀行家與一名女律師之間的對話展開,女律師試圖幫助銀行家擺脫殺人的罪名,但殊不知她就是殺人案中被害者的母親。

與我一起看電影的小悶同學在女律師出場時脫口而出:「我感覺這個律師就是他媽媽。」她的感覺驚人的準確。

電影結束我問小悶,她是如何做出這樣的判斷的,小悶說律師的面部表情看上去很奇怪,不像一名提供專業服務的人,這顯然不是機器學習演算法所能實現的。

今天的內容或許能給小悶對外界的敏感提供解釋:她是一名文科生,而且很喜歡看電影。

最後,與你分享乙個關於文科生的好訊息。薪酬調研公司payscale曾做過一項調查,在薪酬排名前20的畢業生專業中,計算機工程、化學工程這樣的理工類專業長期佔榜,而社會學、歷史學這樣的人文學科則十分罕見。

這聽上去符合我們的直覺,但如果我們觀察那些收入排在前10%的人,具有政治科學、哲學、戲劇、歷史背景的專業人士則會脫穎而出,寶潔前ceo雷富禮曾對實現商業成功單單提出一條建議:取得乙個文科(或稱「自由技藝」)學位(pursue a degree in liberal arts)。

這樣的建議無疑是有道理的,畢竟,真實的世界不是電子**。

大資料時代的思維變革

拜讀了 大資料時代 的第一部分,作者維克托 邁爾 捨恩伯格揭示了大資料所需的 三大思維變革 1 分析事物相關資料,而不是取樣。也可以這麼認為,取樣 總體。大資料是指 不用隨機化分析法這樣的捷徑,而採用所有資料的方法。這裡所指的大資料是相對意義而不是絕對意義,不是指該資料量達到了多少多少 數量級,而是...

大資料時代的思維變化(三)

大資料分析中,分析的不是因果關係,而是相關關係。也就是說,我們在大資料時代,不必非得知道現象背後的原因,而是要讓資料自己體現出價值,我們分析資料的時候只要知道分析的資料是什麼結果就夠了,不需要知道為什麼有這種結果。這些裡,需要我們給大家講一下相關關係,簡單來說相關關係強是指當乙個資料值增加時,另乙個...

大資料時代的思維變化(四)

首先就是大資料分析中,大部分相關關係分析僅限於尋求線性關係。如果說我們做的每乙個決定或者每乙個想法都是自己想做的事情的結果,而這個結果又是由其他原因導致的,如果一直這樣迴圈下去的話,那麼就說明所有的生命軌跡都只是受因果關係的控制了。所以我們不能夠使用因果聯絡看待問題,人們習慣使用快速思維模式,快速思...