機器學習競賽實際上是一場資料競賽

2021-09-05 10:16:32 字數 2292 閱讀 2849

希望使ai有別於其他公司的方法就是使用差異化的資料集,自己構建資料集是乙個差異化方法之一。

隨著機器學習 - 或人工智慧 - 商業化的進行。 競相同時定義和實現機器學習的公司驚訝地發現,實施用於使機器智慧型化的資料集或問題的演算法很容易。 從谷歌tensorflow的開源機器學習框架到微軟的azure機器學習和亞馬遜的sagemaker,有一系列強大的即插即用解決方案可以輕鬆實現繁重的程式化提公升。

然而,沒有變得商品化的是資料。 相反,資料正在成為機器學習競賽中的關鍵區分因素,這是因為適合的資料集並不常見。

實用資料:有價值和稀有

資料正在成為一種差異化因素,因為許多公司沒有他們需要的資料。 雖然公司已經使用普遍接受的會計原則以系統的方式衡量了自己數十年,但這種衡量方法長期以來一直專注於物質和金融資產 - 事物和金錢。 2023年,諾貝爾獎甚至被授予資本資產定價,從而加強了這些公認的優先事項。

但今天最有價值的公司在軟體和網路上進行交易,而不僅僅是實物和資本資產。 在過去40年中,資產重點已完全翻轉,從2023年有形資產佔83%的市場到2023年無形資產的84%。今天的企業巨頭不再製造咖啡壺和銷售洗衣機,而是提**用並聯絡人們。 這種轉變造成了我們衡量和實際推動價值之間的巨大不匹配。

結果是有用的資料很少見。市場和賬面價值之間的差距越來越大。由於這種差距,公司正在競相將機器學習應用於重要的業務決策,甚至取代他們的一些昂貴的顧問,只是意識到他們所需的資料甚至還不存在。實質上,把想象中的新ai系統將新技術應用於相同的舊業務。

就像人一樣,機器學習系統在只有在人們訓練他後,才能變得聰明。為了獲得智慧型,機器需要比人類更多的資料 - 儘管如此,他們確實能夠更快地讀取資料。因此,雖然隨著公司引進機器學習並啟動人工智慧計畫,會出現明顯的軍備競賽,但也存在針對新資料和不同資料的幕後恐慌。

例如,在金融領域,替代資料超出了傳統的**交易委員會報告和影響投資決策的投資者報告。其他資料,例如社交**情緒或授予的專利數量,對於以上兩個報告也是至關重要。首先,傳統資料側重於傳統資產,而在無形資產時代則不夠廣泛。其次,沒有理由使用機器學習來研究市場上其他人正在分析的相同資料集。每個感興趣的人都已經嘗試將行業趨勢,利潤率,增長率,利息和稅前收益,資產周轉率和資產回報率聯絡起來 - 以及1000多個其他常見報告的股東回報變數。

尋找其他人擁有的相同材料組之間的聯絡並不能幫助公司獲勝。相反,想要使用人工智慧作為差異化因素的公司必須找到新資料集之間的關係 - 他們可能必須建立自己的資料集來衡量無形資產

仔細考慮:你想知道什麼?

資料建立比簡單地聚合銷售點或客戶資訊並將其轉儲到資料庫中更複雜:大多數組織錯誤地認為,權宜之計涉及收集每一塊可能的資料,並精心梳理所有資料,希望找到一絲洞察力 - **或分類他們關心的東西的難以捉摸的特徵。

雖然機器學習偶爾會讓我們驚訝,但沒人能搞清楚它的細節,以及讓它保持結果的一,但這並不意味著不靠譜。這意味著我們必須明智地應用它。這說起來容易做起難:例如,在我們對替代資料市場的研究中,我們發現超過一半的新資料提供商仍然專注於衡量實物和金融資產。

許多公司省略的步驟是建立乙個關於重要事項的假設。機器學習真正擅長的地方在於洞察人類所擁有的洞察力 - 一種基於經驗法則,廣泛認知或理解不足的關係 - 以及開發更快,更好理解,更具可擴充套件性(且不易出錯)的方法來應用洞察力。

富有洞察力的機器學習來自不同的資料

以下三點是對所有希望建立有影響力和有價值的機器學習系統公司的建議:

1、差異化資料是ai成功的關鍵。您不希望在和競爭對手相同的資料集上進行訓練。在內部檢視並確定您的組織唯一了解和理解的內容,並使用這些見解建立獨特的資料集。機器學習應用程式確實需要大量資料點,但這並不意味著模型必須考慮廣泛的功能。將您的資料工作集中在您的公司已經與眾不同的地方。

2、有意義的資料優於綜合資料。您可能擁有關於某個主題的豐富詳細資料,這些資料並不是非常有用。如果您的公司不會使用該資訊來幫助臨時決策,那麼從機器學習的角度來看,這些資料可能不會有價值。專業的機器學習架構師會問你關於哪些領域真正重要的棘手問題,以及這些領域如何對你所獲得的見解的應用產生影響。如果這些問題很難回答,那麼你就沒有考慮產生實際價值所需的想法了。

3、你知道的應該是起點。最好地利用機器學習的公司首先要了解對於他們做出重要決策最重要的事情。這將指導他們了解要收集哪些資料,以及使用哪些技術。乙個容易開始的地方是擴充套件和發展您的團隊已有的知識,這可以為組織創造更多價值。

很明顯,軟體已經吞噬了世界(軟體企業家marc andreessen創造的一句話)。 但它仍然很餓! 軟體需要穩定的新資料和新技術相結合,以繼續增加價值。

您不希望被洞察力,機器和資料集的這種轉變所遺忘。 從內部開始,以確定您可以生成的獨特視角和有價值的資料集。 通過這些步驟,您將發現相關的創新思路,以保持您的組織的競爭力。

譯 機器學習競賽實際上是一場資料競賽

如果你願意這麼說的話,機器學習或人工智慧已經成為一種商品。那些急於定義和實現機器學習的企業驚訝的發現,實現一種演算法使機器智慧型的利用已有資料集處理問題的是比較容易的部分。從谷歌開源的機器學習框架tensorflow到微軟的azure和亞馬遜的sagemaker,有一大批強大的即插即用的解決方案,可...

乍一看是「宕機」,實際上是

資料沒有丟,真好 本周一,雲頭條報道稱 github.com 已掛了 8 個小時 資料儲存裝置壞掉了 許多使用者在twitter上紛紛吐槽,抱怨 宕機,包括中國 日本的好多惴惴不安的程式設計師,一些人抱怨自己無法登入進去,或者分支版本丟失了,等等。乍一看,又是 宕機 惹的禍。可是,元芳,你怎麼看?疑...

簡單揹包問題(實際上是子集問題)

從一堆物品weight 1 weight n 中,從中選取若干件放入揹包,使其重量恰好為s 實際上對weight進行全排列,然後只要和為s,即可輸出方案。例如 how many weight do you want to input.6input 6 weight 3 4 6 5 7 2 input...