譯 機器學習競賽實際上是一場資料競賽

2021-09-11 09:29:15 字數 1589 閱讀 6984

如果你願意這麼說的話,機器學習或人工智慧已經成為一種商品。那些急於定義和實現機器學習的企業驚訝的發現,實現一種演算法使機器智慧型的利用已有資料集處理問題的是比較容易的部分。從谷歌開源的機器學習框架tensorflow到微軟的azure和亞馬遜的sagemaker,有一大批強大的即插即用的解決方案,可以輕鬆地完成繁重的程式設計工作。

不過在此過程中,資料不但沒有被商品化,反而正在成為機器學習競賽中極為關鍵的差異化因素。這是因為好的資料並不常見。

資料正在成為一種差異化因素,因為許多公司並沒有他們需要的資料。儘管幾十年來,企業一直使用公認的會計準則通過系統的方式衡量自己,但這種衡量長期以來一直集中於實物和金融資產——即物品和貨幣。2023年,諾貝爾獎(nobel prize)甚至授予了資本資產定價領域的獎項,從而加強了這些公認的優先事項。

有用的資料十分罕見。市場和賬面價值之間的差距越來越大。由於這種差距,公司正在競相將機器學習應用於重要的業務決策,甚至取代他們的一些昂貴的顧問,只是意識到他們所需的資料甚至還不存在。從本質上說,人工智慧這個新生的系統正在被要求應用到傳統的企業中。

就像人一樣,機器學習系統在沒有學習之前無論怎樣都不算聰明。為了變得智慧型,機器需要比人類更多的資料。不過他們也確實能夠更快地讀取資料。因此,儘管企業在引進機器學習人才和啟動人工智慧計畫方面存在明顯的競爭,但對於新資料和不同資料,也存在一場幕後競爭。

例如,在金融領域,替代資料超出了傳統的**交易委員會報告和影響投資決策的投資者報告。社交**情緒或專利授予數量等另類資料之所以重要,有兩個重要原因。首先,傳統資料側重於傳統資產,而在無形資產時代則不夠廣泛。其次,沒有必要花時間使用機器學習來研究市場上其他人正在分析的相同資料集。所有對此感興趣的人都已經嘗試將行業趨勢、利潤率、增長率、息稅前利潤、資產周轉率和資產回報率,以及1000多個其他常見變數與股東回報聯絡起來。

在所有人都擁有的相同資料之間尋找聯絡,無助於企業在競爭中取勝。相反,那些希望將人工智慧作為差異化因素的企業,將不得不在新資料集之間尋找關聯——它們可能不得不建立自己的資料集,以衡量無形資產。

資料建立比簡單地聚合銷售點或客戶資訊並將其轉儲到資料庫要複雜得多:大多數組織錯誤地認為,權宜之計包括收集所有可能的資料碎片,並煞費苦心地梳理所有資料,以期找到一絲見解——難以捉摸的功能,可以**或分類他們關心的事物。

雖然機器學習偶爾會以一種罕見的、尚未有人發現的閃光點給我們帶來驚喜,但該技術無法提出一致性的見解。這並不意味著這個工具沒用。而是意味著我們必須正確的使用它。在我們對替代資料市場的研究中,我們發現超過一半的新資料提供商仍然專注於衡量實物和金融資產。

許多組織省略的步驟是建立乙個關於重要事項的假設。機器學習真正擅長的地方在於,它具有人類所擁有的洞察力——一種基於經驗法則、廣泛的感知或不太理解的關係——並開發一種更快速、更易於理解、更易拓展(不容易出錯)的方法來應用那些insight。

所有的這些對於那些希望建立有影響力和有價值的機器學習應用程式的公司都有以下三個具體的含義:

很明顯,軟體已經吞噬了世界(這是軟體企業家marc andreessen所說的一句話)。但這仍然不夠,軟體需要新資料與新技術相結合,這樣才可以繼續增加價值。

如果你不想被這種見解、機器和替代資料的轉變所拋棄。那就從內部開始尋找,確定你獨特的視角,以及你能夠並且應該生成的有價值的、可選的資料。遵循這些步驟,你將會發現他們之間的關聯,並以此保持組織的競爭力。

機器學習競賽實際上是一場資料競賽

希望使ai有別於其他公司的方法就是使用差異化的資料集,自己構建資料集是乙個差異化方法之一。隨著機器學習 或人工智慧 商業化的進行。競相同時定義和實現機器學習的公司驚訝地發現,實施用於使機器智慧型化的資料集或問題的演算法很容易。從谷歌tensorflow的開源機器學習框架到微軟的azure機器學習和亞...

乍一看是「宕機」,實際上是

資料沒有丟,真好 本周一,雲頭條報道稱 github.com 已掛了 8 個小時 資料儲存裝置壞掉了 許多使用者在twitter上紛紛吐槽,抱怨 宕機,包括中國 日本的好多惴惴不安的程式設計師,一些人抱怨自己無法登入進去,或者分支版本丟失了,等等。乍一看,又是 宕機 惹的禍。可是,元芳,你怎麼看?疑...

簡單揹包問題(實際上是子集問題)

從一堆物品weight 1 weight n 中,從中選取若干件放入揹包,使其重量恰好為s 實際上對weight進行全排列,然後只要和為s,即可輸出方案。例如 how many weight do you want to input.6input 6 weight 3 4 6 5 7 2 input...