為何企業無法從資料科學中真正獲得價值?

2021-10-01 00:16:15 字數 2014 閱讀 9940

當今企業擁有越來越多的資料,但這些資料並沒有完全被轉化成可操作的資訊。在過去的幾年裡,我和我的mit調查小組一直在尋找乙個基本問題的答案:如何讓企業通過機器學習,將蘊藏於其資料儲存內的潛能全部釋放出來。

當今企業擁有越來越多的資料,但這些資料並沒有完全被轉化成可操作的資訊。在過去的幾年裡,我和我的mit調查小組一直在尋找乙個基本問題的答案:如何讓企業通過機器學習,將蘊藏於其資料儲存內的潛能全部釋放出來。

當我們與不同行業的合作夥伴一起設計基於機器學習的解決方案時,我們發現已有的解決方案通常情況下是不適合的,這是為什麼呢?

與此同時,我們經常聽到商業專家抱怨「我們有大量的資料,但沒有通過這些資料做成任何事」。更深入的調查顯示這種說法也不完全對。而這種挫敗感主要**於兩個方面。

一方面是由於時間問題。由於機器學習中,理解、規劃及處理資料等一系列過程所需要花費的時間,機器學習專家常常更加關注流程的後面部分——嘗試不同的模型或者在問題制定完成後,調整模型引數,而不是針對不同的商業問題制定新的**模型。因此,當商業專家想到某個新的問題時,機器學習專家無法做到總是及時跟上他們的步伐。

另一方面,經常來說,機器學習專家並沒有圍繞著「產生商業價值」,這一建模的最終目標,來展開工作。在大部分情況下,**模型旨在提高效率、增加收益或者減少支出。但實際上,建立模型的工作者卻很少問這樣的問題「這個**模型提供的價值是什麼?我們又該如何去量化其價值?」。思考這一價值導向的問題常常會改變最初的問題規劃(problem formulation),通常情況下比建模後期再進行過程調整更加有用。最近在乙個機器學習愛好者小組中,我向約150名觀眾進行了調查,當問到「有多人建立過機器學習模型?」大約有三分之一的人舉了手。緊接著,當我問到「有多少人真正應用自己建立的模型產生價值,並量化模型產出價值?」時,所有人的手都放下了。

換句話說,機器學習專家更傾向於將時間花在構建模型上,而不是處理海量資料集或者將商業問題轉化為**問題。無獨有偶,當前的技術環境,無論是商業還是學術,關注點都在實現更加複雜的模型(lvm潛變數模型)、模型學習演算法(分布式計算),或者微調(貝葉斯優化)。本質上,這些都屬於資料科學專案後期的過程。然而,按照我們的經驗,我們認為這些關注點並不是最恰當的。

如果公司想要從資料中獲得價值,需要將重點放在加速對資料的人為理解,在短時間內調整可構建的模型問題數量以及**這些模型所的成效。在與公司的合作中,我們得出結論,想要通過機器學習帶來真正的改變,需要將重點放在以下四個方面:

堅持簡單的模型

簡單的模型,例如邏輯回歸、基於隨機森林或者決策樹的模型。這些模型已經足夠解決手頭上的任務。關鍵是減少資料採集時間,盡早進行第乙個簡單**模型的開發。

探索更多的問題

資料科學家需要有能夠快速而簡單的定義和探索多個**模型的能力。公司應該探索更多的商業問題,為每乙個商業問題建立乙個簡單的**模型,並評估其價值,而不是用超級複雜的機器學習模型去探索僅僅乙個商業問題。

從資料樣本中而不是全部的資料中學習

不要過多的關注如何使用分布式計算讓任何乙個處理模型都能進行大資料處理,而是在能夠從子樣本資料中匯出相似結論的技術上進行投資。規避大量計算資源的使用,將會給予我們更多的空間去探索更多的假設。

關注自動化

為減少第乙個**模型產生的時間和加快探索的速度,公司必須能夠自動化處理在正常情況下需要人工完成的過程。通過在不同資料問題上的反覆探索,我們發現很多時候都在使用相似的資料處理技術,無論是將資料轉化為有用的聚合資料,還是為**模型準備資料。是時候流水線化這些任務,開發演算法和軟體,使這些過程能夠自動化完成。

專注於上述四個目標,準確理解資料科學家如何與資料互動,以及專案瓶頸之所在,幫助我們成功啟動了mit的「thehuman-data interaction project」專案。

我們的目標是快速探索**模型,並將這些模型應用於解決真實企業中的實際問題。這些模型簡單,同時自動化讓非專業的使用者也能夠在幾個小時內建立成百甚至上千個**模型。而這在今天,通常需要花費專家們一整個月的時間才能做到。

資料科學對企業的影響

2 做小而美模式的中小微企業可以利用大資料做服務轉型 3 面臨網際網路壓力之下必須轉型的傳統企業需要與時俱進充分利用大資料的價值。大資料的趨勢主要體現在資料的資源化 商家了解了使用者資料,就能更好地了解使用者需求,從而給使用者更好的體驗。搶到了資料,就相當於搶到了商機。近代的商業鬼才們是通過社會發展...

企業為何需要搭建大資料平台

如今企業對於資料的需求已經不單單需要乙個大資料底層和大資料儲存的方案,而是想要從資料獲取到大資料全鏈條端到端整體的解決方案。人類對資料的管理挖掘和需求越來越旺盛,在解決問題的時候,牽扯到的資料量和維度也是不斷 不斷增長的,如何更好 更輕鬆地挖掘和管理資料是如今面臨的最大問題。隨著系統的不斷增加和積累...

小白資料結構學習 陣列為何從0開始

先說結論 陣列從零開始是為了使運算更快!陣列屬於線性表,陣列的特點就是連續,這個特點會使得它按下標進行查詢的時候速度非常快,時間複雜度只有o 1 陣列按照下標進行查詢的時候,會在原位置加上下標個值,到達下標位置的位址,快速提取陣列的值 a k address base address k type ...