如何有效溝通你的機器學習結果?

2021-09-20 02:34:31 字數 3654 閱讀 8547

多問自己乙個「那又怎樣?」,會很有用。

7月初,我赴南京參會。 james hendler 教授的演講非常精彩。

其中乙個片段,讓我印象深刻。

他說,許多人跑模型,跑出來乙個比別人都高的準確率,於是就覺得任務完成了。他自己做健康資訊研究,通過各種特徵判定病人是否需要住院**。很容易就可以構建乙個模型,獲得很好的分類效果。

但是,這其實遠遠不夠。因為別人(例如他的醫生客戶們)非常可能會問出乙個問題「so what?」 (意即「那又怎樣?」)

我聽了深以為然。

因為模型準確率再高,有時也免不了會有運氣的成分。能否在實際應用中發揮作用,並不能單單靠著乙個數字來說明。

醫生們都有自己作為專業人士的驕傲。如果計算機模型不能從理據上說服他們,那肯定是不會加以採納的。同時,他們對於病患的健康和生命安全,也有足夠重大的責任,因此無法簡單接受機器模型的結果,而不加以自己的理解與思考。

對於機器學習模型研究的這種批評,之前我也聽到一些。但是不少人僅僅是批評,卻沒有給出有效的解決方法。

該怎麼辦呢?hendler 教授的解決辦法,是給醫生展示一些統計圖表。例如描述年齡與二次入院關係的散點圖。

我聽了大為驚詫,提問環節第乙個就把話筒搶了過來,問:

這種圖形,屬於描述統計。難道不應該是正式進行模型訓練之前,就做了的嗎?如果把它作為溝通模型的結果,那還做什麼機器學習呢?

hendler 教授耐心地給我解答了這個問題。

他說,沒錯,這個圖形確實屬於描述統計。然而,數百上千個特徵裡面,知道該匯報哪幾個變數的統計圖,就必須是機器學習之後才能做的。

實際上,醫生們看了這個簡單的統計圖之後,非常震撼。

他們的刻板印象認為,老年人身體狀況差,因此二次入院機率高;年輕人身體好,自癒能力強,因此不大容易「二進宮」。

就此,他們發現了一直以來決策上的失誤——對於年輕病患,他們往往比較放心,因此缺乏足夠的留院觀察和**;反倒是對老年人,照顧得更加精細。造成的結果,是本以為沒事兒的年輕人,再次重症發病入院;老年人卻不少都**後健康回家了。

這種結果的傳遞溝通,有效地改進了醫生的決策和行為方式。

其實,hendler 教授的研究目的,不是去跟別人比拼乙個數字,而是幫助醫生更好地幫助病患。看似最為簡單,沒有技術含量的統計圖,反倒比各種黑科技更能起到實際作用。

茶歇的時候,我們又聊了20分鐘。

他給我講,他的博士生,現在正在嘗試在深度學習中找尋那些影響最後結果的關鍵要素,有的時候,甚至會選擇跨過層級,來設計最簡單明確的變數間關聯設定。這樣,深度學習的結果,可以最大限度(對別人)進行解釋。即便會犧牲一些(當然不會很大)準確率,也在所不惜。

為什麼我們一直對準確率的數字,這麼著迷,而忽略了模型的溝通解釋呢?

其實道理也很簡單,機器學習的最初廣泛用途,給我們的思維帶來了路徑依賴。

還記得嗎?機器學習逐漸受到世人重視的案例?

我說的不是 alphago。

就是幾乎每一本講機器學習的書,都會用到的那個例子,mnist。

專家們最初要解決的問題,無非是把原先需要人工分揀的郵件,變成機器自動分揀。關鍵在於手寫數字的識別。

這個具體用例,有它的特點。

首先是任務目標單一,就是追求更高的準確率;

其次是分類數量確定,0-9,一共10個數字,不會更多,不會更少;

最後是犯錯成本低,即便準確率達不到100%,也沒有什麼大問題——寄錯了信,在人工分揀時代也是正常。

於是,這樣的任務,就適合大家拼結果準確率數字。

但是,人們的思維慣性和路徑依賴(包括各種競賽的規則設定),導致了後面的機器學習任務,也都只關注數字,尤其是準確率。

但這其實是不對的。類似於決策支援,尤其是健康醫療的決策支援,就不適合單單比拼數字。

即便誤判 0.1%,背後可能也是許許多多鮮活的生命,因此犯錯成本極高。

醫生並沒有因為模型的準確率提公升而被取代,反而在資訊浪潮奔湧而來的場景下,充當把關人的角色,責任更加重大了。

乙個模型要能說服醫生,影響其決策行為,就必須解釋清楚判斷的依據,而不能遞給他乙個黑箱,告訴他:

你該這樣做。

原理想明白了,怎麼實施呢?

如果每乙個模型跑完,都只是拿出多張描述性統計圖給使用者,好像也不大合適。

通過文獻閱讀,我發現了其他機器學習研究人員為了解釋結果所做的努力。

在深度學習領域,現在做得比較好的,是卷積神經網路。

在《文科生如何理解卷積神經網路?》一文中,我給你解釋過卷積神經網路的概念和使用方法。

但是,我們當時,還只是給你講解如何用它進行分類等,沒有涉及解釋方案。

你看這樣一幅圖,機器模型可以很容易分辨它為「非洲象」。

但是,這到底是機器具有了辨別能力,還是只不過運氣使然呢?

單看結果,不好分辨。但是我們可以對卷積神經網路訓練的結果引數進行視覺化,並且疊加到原圖上,你一眼就可以看到,機器做出影象分類的依據,究竟是什麼。

顯然,在機器重點關注的區域裡,象的鼻子和耳朵佔了最大的決策比重。

由此可以看出,這不是簡單的好運氣。

以上例子,來自於 françois chollet 的《deep learning with python》。書中附有詳細的**,供你用 python 和 keras 自己實現這種視覺化結果。

你訓練出的模型表現好,這是成功的基礎,但不是全部。

只展示乙個數字給別人,在很多特定的應用場景下,是不夠的。問題越是重要,犯錯代價越高,這種方式就越不能被接受。這時候多問自己乙個「那又怎樣?」,沒有壞處。

你需要明確自己使用者的需求。與之有效溝通的關鍵在於用同理心,尊重對方。作為乙個人,特別是乙個專業人士,對方進行有效思考的要件,就是足夠的理據支撐。

不管是用文中介紹的卷積神經網路視覺化方法,還是 hendler 教授所做的看似基礎無比的描述性統計圖,都可以根據問題的特點,加以採用。只要能夠真正影響對方的決策,幫助他們更好地達成自己的目標,你的機器學習分析,便有了更佳的效果。

如果你對資料科學感興趣,不妨閱讀我的系列教程索引貼《如何高效入門資料科學?》,裡面還有更多的有趣問題及解法。

如何與老闆的有效溝通

進入職場這麼多年,一直沒有認真思考過,怎麼和老闆有效的溝通。今年才想清楚。與老闆有效溝通的確比較重要,能與老闆有效溝通能,不管是加工資還是職位上去都是有用的。當你的職位比較低的時候,沒有和老闆直接溝通的時候 這個時候寫出來很重要,以報告,信件的方式。老羅這麼強,當年能撬動新東方的大門,還是給洪哥寫了...

如何有效的溝通 會議 1

一件自豪的事,如果處理不好,將淪落為為他人作嫁衣裳的慘狀。會前不去準備重點,會上將偏離最初的設想,你的重心將會偏移。有人很善於蠅營狗苟,很會攻擊,他會拿出乙個小點對你進行攻擊,批判。而你用乙個不高明的內容展示自己的思想,導致的結果是大家對自己思想的理解產生偏差,對概念提出異議 失敗的原因可能有 1 ...

如何做到有效的溝通?

本文不敢談高效溝通,只根據作者感受談談如何做到有效溝通。生活和工作中溝通不可或缺,因為溝通不暢,溝通不到位造成的問題也是數不勝數,導致諸多無端的煩惱。那麼如何做到有效溝通呢?本人總結以下幾點,供參考 1,深入了解目的。做事要動腦筋,從別人的角度出發,了解做事背後要達成的真正的目的。本著有助於解決問題...