資料蔣堂 人工智慧中的「人工」

2021-09-20 12:19:42 字數 1297 閱讀 6944

自從alphago贏了之後,人工智慧就變得非常熱門了。不過,大家在關注「智慧型」時,卻很少把注意力放在「人工」上,似乎感覺上了人工智慧之後,一切都能自動化了。其實,這份智慧型的背後有著大量的「人工」,還有相當多不能自動化的事情。

這裡的"人工"主要體現在兩個方面:

1. 資料準備

現代的人工智慧技術,或者說機器學習,其基本方法和n多年前的資料探勘並沒有什麼太大的不同,也還是將大量資料餵給計算機用於訓練模型,模型生成之後就可以用於自動化處理,看起來就像有了智慧型。

然而,用於實際業務的機器學習專案,並不像alphago那樣可以自己生成資料來訓練(其實alphago的前期版本也用了大量現存的棋譜),必須使用實際發生過的資料才能訓練模型。不同的資料訓練出來的模型完全不同,資料的質量嚴重影響模型的效果。

但是,實際的資料五花八門,散落在各個應用系統中。想把它們整理出來供演算法使用,並不是一件容易的事。機器學習需要的常常是比較規整的寬表資料,這還需要把各個應用系統中的關聯資料拼接到一起;而各系統的資料編碼規則可能不一樣,這還需要先統一化;有些資料還是原始的文字(日誌)形式,還需要事先從中抽取出結構化的資訊;更不要說還有從網際網路上扒出來的資料。

有經驗的程式設計師都知道,乙個資料探勘專案中,用於資料準備的時間大約會佔到70%-80%,也就是說,絕大多數工作量都花在訓練模型之前。

這其實就是我們常說的etl工作了,這些事看起來沒什麼技術含量,似乎是個程式設計師就能做,人們也就不很關心,但成本卻高得要命。

2. 資料科學家

etl整理好的資料,也仍然不是那麼好用的。還需要資料科學家來進行進一步處理才能進入建模環節。比如有些資料有缺失的,那麼需要有某種辦法來補缺;資料的偏度太大,而很多統計學方法要假定資料分布要盡量滿足正態分佈,這就需要先做一遍糾偏;還需要根據業務情況生成衍生變數(比如從日期生成星期、節假日等)。這些工作雖然也是建模前準備工作,但需要較專業的統計學知識,我們一般不把它算作為etl的範圍。

機器學習的建模演算法有好幾十種,各種演算法都有各自的適用範圍,還有大量的引數需要調節。如果用錯了模型或調錯了引數,那就會得到非常不智慧型的結果了。這時候又需要資料科學家們不斷地嘗試,計算並考察資料特徵,選用合理的模型和引數,根據結果再反覆迭代,經常較漫長的時間才能建乙個實用的模型出來,短則二三周、長則二三月。

不過,近年來也出現一些完全自動迭代的手段(主要是神經網路),但計算時間很長,而且在許多領域(如金融風控)的效果並不太好,更有效的仍然是由資料科學家主導的方案,然而資料科學家們又少又貴。

是不是覺得現在的技術還有點low?人工智慧的背後原來一點也不智慧型!

原文發布時間為:2018-04-19

Forecast的人工智慧

forecast智慧型專案管理軟體 人工智慧 英語 artificial intelligence,ai 亦稱機器智慧型,是指由人工製造出來的系統所表現出來的智慧型。通常人工智慧是指通過普通電腦實現的智慧型。人工智慧的研究可以分為幾個技術問題。其分支領域主要集中在解決具體問題,其中之一是,如何使用各...

遊戲開發中的人工智慧

今天非常開心,cocos官方直播居然在幾千人中中獎,可以買彩票了。言歸正傳,所謂的人工智慧,也就是大家常說的ai artificial intelligence 一說到ai可能就會讓人覺得比較深奧,其實也就是非玩家角色思考和行為的綜合。比如,在什麼樣的條件下,觸發什麼樣的行為。其實我們在遊戲開發中的...

人工智慧名人堂(AI Hall of Fame)

艾倫 麥席森 圖靈 英語 alan mathison turing,1912年6月23日 1954年6月7日 英國數學家 邏輯學家,被稱為電腦科學之父,人工智慧之父 馬文 明斯基 marvin lee minsky 1927年8月9日 2016年1月24日 美國 紐約 人工智慧框架理論的創立者 人工...