經過這乙個月的課程學習,算是對機器學習和模式識別這方面有了一定認識,畢竟以前也只是聽說過,沒有特地的進行了解。課程不知不覺已經過半了,但是相對已經學習的課程來說我掌握的東西並不是很多(學習果然還是在學校效率比較高)。這門課程涉及的數學知識很多,對於我這種線性代數知識已經忘的差不多的來說,很多公式推導起來確實很費勁,所以後面的課程在這方面要多下些努力。
automl問題定義
automl問題構成
automl的主要問題可以由三部分構成:特徵工程、模型選擇、演算法選擇。
特徵工程
特徵工程在機器學習中有著舉足輕重的作用。在automl中,自動特徵工程的目的是自動地發掘並構造相關的特徵,使得模型可以有最優的表現。除此之外,還包含一些特定的特徵增強方法,例如特徵選擇、特徵降維、特徵生成、以及特徵編碼等。這些步驟目前來說都沒有達到自動化的階段。
上述這些步驟也伴隨著一定的引數搜尋空間。第一種搜尋空間是方法自帶的,例如pca自帶降維引數需要調整。第二種是特徵生成時會將搜尋空間擴大。
模型選擇
模型選擇包括兩個步驟:選擇乙個模型,設定它的引數。相應地,automl的目的就是自動選擇出乙個最合適的模型,並且能夠設定好它的最優引數。
演算法選擇
對於演算法選擇,automl的目的是自動地選擇出乙個優化演算法,以便能夠達到效率和精度的平衡。常用的優化方法有sgd、l-bfgs、gd等。使用哪個優化演算法、對應優化演算法的配置,也需要一組搜尋空間。
從全域性看
將以上三個關鍵步驟整合起來看,乙個完整的automl過程可以分成這麼兩類:一類是將以上的三個步驟整合成乙個完整的pipeline;另一類則是network architecture search,能夠自動地學習到最優的網路結構。在學習的過程中,對以上三個問題都進行一些優化。
基本的優化策略
一旦搜尋空間確定,我們便可以實用優化器(optimizer)進行優化。這裡,automl主要回答三個問題: - 選擇的優化器可以作用在哪個搜尋空間上? - 它需要什麼樣的反饋? - 為了取得乙個好的效果,它需要怎樣的配置?
簡單的優化搜尋方式包括grid search和random search。其中grid search被廣泛使用。
從樣本中進行優化的方法主要包括啟發式搜尋、derivative-free優化、以及強化學習方法。梯度下降法是一種重要的優化策略。
基本的評價策略包括:
應用展望
未來可能的研究方向:
第乙個方面,在人工智慧產業發展這方面,應該說中國創新的基礎還不是十分的牢靠。從《報告》分析來看,不管是人工智慧**的發表,還是人工智慧技術專利的產出,中國企業在這方面跟國外同行相比,還是比較落後的,與學術研究形成對比。在全球ai**產出最多的20家企業中,中國只佔了一席之位,而且還是大家想都想不到的國家電網。而我們耳熟能詳的其他中國在人工智慧領域的領先企業,卻看不到他們的身影,這是值得我們關注的。
第二個方面,是人才短板的問題。從國際人工智慧人才投入數量來看,中國在人工智慧方面的人才投入在全球是領先的,位列第二,僅次於美國。 但是,人工智慧傑出人才中國佔比很低,美國在人工智慧傑出人才佔比遙遙領先,累計高達5158人,佔據世界總量的25.5%,是排名第二英國的4.4倍。在這方面,我們的差距非常大,還需要有乙個長期的積累。也就是說,我們不光要培養出人工智慧浩浩蕩蕩的人才大軍,同時還要有大量頂尖的領軍人才,這也是我們需要關注的。
機器學習第一次作業
對話式人工智慧平台是指融合語音識別 語義理解 自然語言處理 語音合成等多種解決方案,為開發者提供具備識別 理解及反饋能力的開放式平台的技術。該技術能夠實現機器與人在對話服務場景中的自然互動,未來有望在智慧型可穿戴裝置 智慧型家居 智慧型車載等多個領域得到大規模應用。智慧型腦機互動是指通過在人腦神經與...
機器學習第一次作業
深度學習的背景是機器學習,機器學習 machine learning 是一門專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能的學科。機器能否像人類一樣能具有學習能力呢?1959年美國的塞繆爾 samuel 設計了乙個下棋程式,這個程式具有...
機器學習第一次作業
1 自然語言理解 nlu 2 自然語言生成 nlg nlu 是要理解給定文字的含義。本內每個單詞的特性與結構需要被理解。在理解結構上,nlu 要理解自然語言中的以下幾個歧義性 詞法歧義性 詞法歧義性是指乙個單詞有多重含義。如train這個單詞,作為動詞使用時,它是訓練的意思,當作為名詞使用時,它是火...