機器學習必然需要大量資料嗎

2021-10-08 06:53:35 字數 1464 閱讀 5989

目前的機器學習大多需要大量資料,相比而言,人類接收少量資料就能達到同樣的效果,因此機器常被批評不夠聰明。這種批評有一定道理,但是存在兩點問題。首先,批評者忽視了人類在漫長的進化過程中學習過大量資料,並且以基因的形式將學習結果傳遞至今。人類出生時並不是一塊白板,大腦已經具備了基本結構和學習潛力,所以人類只需要少量資料其實是曾經的大量資料訓練的結果。其次,人類在成長過程中也經歷了大量訓練,例如某人從小到大雖然只見過幾百隻貓,但由於人眼相當於高速攝像機,不間斷地拍攝了大量,所以其實接收了非常多的訓練資料。

當然,不可否認大腦是非常巧妙的。也許有人會說進化過程中的資料和目前的資料差異巨大,不具有足夠的價值,但是大腦事實上是通過大量資料學會了如何學習,從而具有很強的遷移能力。此外,大腦也具有很強的想象能力,例如馬航mh370失聯後,搜尋人員希望通過分析南印度洋的衛星影象尋找可能的飛機殘骸,但是發現計算機識別的準確率極低。相比而言,人類的分辨能力就要強得多,因為雖然飛機殘骸非常不規則,但是人類能夠通過飛機的樣子想象出飛機的各種殘骸的樣子。[1]除了遷移、想象能力,大腦還有很多非常優越的能力。

大腦的這些能力使得它只需要少量資料,如果人類無法直接設計出和大腦同等巧妙的機器,那麼只能通過大量訓練來彌補,要想既不需要完善的結構又只需要少量資料是不可能的,這其實是另乙個版本的「沒有免費午餐」定理(no free lunch theorem,簡稱nfl定理)。

nfl定理是機器學習中的乙個著名定理,指的是拋開實際情況,任何演算法的期望效能都和隨機猜測沒有區別。例如下面這個例子[2]:

a、b曲線都能完全擬合訓練集,但是真實情況可能是a也可能是b,或者二者都不是,因此不同演算法的期望效能是相同的。這是在訓練樣本數量有限的情況下必然會出現的問題。

如果希望找到更確切的擬合曲線,要麼增加訓練樣本,要麼增加外部資訊。外部資訊是指來自實際情況的助於判斷的資訊,例如大腦的遷移能力就是一種獲得外部資訊的能力,大腦通過類似的例子來幫助判斷。在上面這個例子中,我們傾向於認為平滑的a曲線能夠更好地擬合真實情況,這源於我們的經驗,經驗就是一種外部資訊。近些年興起的小樣本學習(few-shot learning)的基本思路就是加入外部資訊,通過已有知識的遷移來增強泛化能力。

總而言之,機器學習不一定需要大量資料,但是要取得良好效果必須加入外部資訊,或者說使機器擁有額外的判斷能力。機器需要大量資料來學習是正常的,人類也曾經在進化過程中這麼做過,但是人類作為「過來人」應該指導機器——設計更巧妙的硬體、編寫更巧妙的程式,使得機器不需要太多的資料,這其實是人類在為機器提供外部資訊。最後,值得一提的是,小樣本學習和大資料並不矛盾,大資料相當於統計資料,對於社會管理、資源排程、決策等等都是非常重要的,具有少量資料無法替代的作用。

參考資料

1 [美]皮埃羅·斯加魯菲.《智慧型的本質:人工智慧與機械人領域的64個大問題》. 人民郵電出版社. 2017. 140頁

2 周志華.《機器學習》. 清華大學出版社. 2016. 7-9頁

我們真的需要機器學習工程師嗎?

隨著機器學習技術的發展,主打易用性 無需專業知識 人人皆可用的機器學習工具和平台正在成為主流,谷歌 微軟 saleforce uber 等公司紛紛推出了相應的產品。毋庸置疑,這些產品大大降低了機器學習的准入門檻,讓越來越多非專業人士得以快速將機器學習應用到實際工作中。但這也引出了乙個疑問 我們真的需...

機器學習面試需要準備啥

凡人機器學習 大概會問傳統機器學習 深度學習 最優化 coding四個方面 傳統機器學習考察點 1 bias與variance的含義,並結合ensemble method問哪種方法降低bias,哪種方法降低variance 2 lr與svm的區別與聯絡 3 gbdt與adaboost的區別與聯絡 4...

程式設計師需要學習英語嗎?

那肯定需要啊!非常需要!計算機行業英語非常重要。英語好。可以去愛立信,微軟,英特爾等外企上班,喝不完的飲料,吃不完的零食。輕鬆愉快的工作氛圍。完善的福利待遇。還可以科技移民。碼農翻身就靠這個了。阿里馬雲 杭州師範大學英語專業 四年 十一年中國大學 杭州電子工學院 英語教學經驗。所以你現在還在問自己學...