人工智慧 什麼是強化學習?

2021-08-28 13:53:57 字數 1623 閱讀 8133

強化學習是人工智慧(ai)中討論最多、關注最多和考慮最多的話題之一,因為它有可能改變大多數企業。什麼是強化學習?強化學習的核心是乙個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟體**使用強化學習演算法,通過以環境的反饋為基礎來確定理想行為,這是機器學習的一種形式,也是人工智慧的乙個分支。

根據問題的複雜性,強化學習演算法可以在必要時隨時間保持適應環境,以便長期獲得最大的回報。乙個通過強化學習來學會行走的機械人將通過嘗試不同的方法實現目標,獲得有關這些方式成功的反饋,然後進行調整直到達到行走的目標。大步伐會讓機械人摔倒,通過調整步距來判斷這是否是保持直立的原因,通過不同的變化持續學習,最終能夠行走。以上說明,獎勵是保持直立,懲罰就是摔倒,機械人基於對其動作的反饋資訊進而優化並強化。強化學習需要大量的資料,這就是為什麼這項技術的第乙個應用領域是模擬資料,如遊戲和機械人。

儘管處於強化學習的早期階段,但仍有一些應用和產品開始依賴這種技術。公司開始使用強化學習解決連續性決策問題,同時強化學習支援專家決策或自動化決策處理。

機械人。強化學習為機械人學提供了「框架和一套工具」,用於處理難以設計的行為。由於強化學習可以在沒有監督的情況下進行,這可以幫助機械人倍速增長。

工業自動化。得益於deepmind(深度思維公司)的強化學習能力,谷歌能夠顯著降低其資料中心的能源消耗。近期被微軟收購的bonsai公司提供了一種強化學習解決方案,可以在能源、暖通空調、製造、汽車和**鏈中實現自動化和「將智慧型構建到複雜的動態系統中」。

加強預見性維護。機器學習已經在製造業中使用了一段時間,但強化學習可以使**性維護比現在更好。

博弈。事實上,強化學習的第乙個應用是當機器學習演算法alphago在圍棋中戰勝世界上最好的人類棋手之一時一戰成名,現在強化學習被用於各種遊戲的競爭。

醫學。強化學習非常適合於為健康狀況和藥物**找出最佳的**方法,還被用於臨床試驗以及醫療保健的其他應用。

對話系統。由於公司以客戶諮詢、合同、聊天機械人等形式接收大量的抽象文字,因此,將強化學習用於文字摘要的解決方案備受推崇。這些工具的內在特性是,隨著時間的推移會變得更好。

個性化。無論是你使用的**、針對你展現的廣告,還是你計畫購物平台上購買的商品,都有強化學習演算法在幕後發揮作用,以創造一流的客戶體驗。

自動駕駛。大多數自動駕駛汽車、卡車、無人駕駛飛機和船隻的核心都有強化演算法。英國wayve公司設計了一款自動駕駛汽車,通過強化學習能在20分鐘內學會駕駛。

由於強化學習執行需要大量的資料集,因此大多數公司想要利用強化學習的能力需要獲取更多的資料,並且隨著強化學習的價值不斷上生,公司將繼續對資源進行投資,以便找出在其運營、服務和產品中實現該技術的最佳方式。

強化學習1 什麼是強化學習

強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...

初識強化學習,什麼是強化學習?

相信很多人都聽過 機器學習 和 深度學習 但是聽過 強化學習 的人可能沒有那麼多,那麼,什麼是強化學習呢?強化學習是機器學習的乙個子領域,它可以隨著時間的推移自動學習到最優的策略。在我們不斷變化的紛繁複雜的世界裡,從更廣的角度來看,即使是單純的靜態的輸入 輸出型問題也會變成動態的問題。例如,對於乙個...

人工智慧基礎 什麼是人工智慧

人工智慧是一門研究如何構造智慧型機器 智慧型計算機 或智慧型系統,使它們能夠模擬 延伸和拓展人類智慧型的學科。個人理解就是 研究人的智慧型,並且把人的智慧型放到機器上面,代替人思考。人工智慧發展簡史 孕育階段 1.亞里斯多德三段論 2.英國哲學家培根 知識就是力量。3.萊布尼茨 建立一種通用的符號語...