一、定義
機器學習的核心思想是創造一種演算法,它能從資料中挖掘出有規律的東西,而不需要針對某個問題去寫**。你需要做的只是把資料「投喂」給這個演算法,然後它會在資料上建立自己的邏輯。最基本的機器學習演算法是解決分類和回歸兩大類問題。
二、分類
從機器學習演算法本身來看,可分為監督學習、非監督學習、半監督學習、增強學習。
監督學習:給機器的訓練資料擁有標記或標籤的學習方式是監督學習。監督學習主要處理分類和回歸問題,本系列大部分演算法都是監督學習類演算法,主要的監督學習演算法有下面幾種。
k近鄰 線性回歸和多項式回歸 邏輯回歸 svm支援向量機 決策樹和隨機森林非監督學習:給機器的訓練資料沒有任何標記或標籤答案。
它經常對這些資料做聚類分析型分類和異常值檢測。另外非監督學習可用於對資料進行降維,降維包括特徵提取和特徵壓縮,經典的pca演算法就是非監督學習演算法用於實現特徵壓縮,降維把高緯特徵向量變為低緯,方便計算和視覺化。
半監督學習:顧名思義是監督學習和非監督學習的組合,給機器的訓練資料一部分有標記或答案,另一部分沒有。這種情況往往更常見,現實中各種原因都可能導致標記缺失。比如手機**的分類,有些我們自己標記了類別,有些沒有,對手機**的分類就類似乙個半監督學習。這類問題一般先使用無監督學習對資料進行處理,之後使用監督學習手段做模型的訓練和**。
增強學習:也叫強化學習,它根據周圍環境的情況採取行動,根據每次行動的結果和反饋,學習和調整行動方式,它必須學習什麼是最好的策略從而隨著時間推移能獲得最大回報。如alphago內部的演算法。現在無人駕駛,機械人等都是這種方式進行學習。監督學習和半監督學習依然是增強學習的基礎。
批量學習:這種學習方式首先要準備一定量的樣本資料集資料,將資料集送給模型訓練,訓練之後即將模型投入生產。其優點是簡單,不考慮後來餵入的資料如何優化演算法,缺點是模型適應環境變化的能力弱。解決辦法是定時重新批量學習,但是計算開銷大。
引數學習和非引數學習
引數學習:是對模型做一些規律(函式)性假設,一旦學習到引數,就不再需要原有的資料集執行**了,如線性回歸確定線性模型引數,引數確定後,執行**時按函式運算就行而無需資料集值的作用。
非引數學習:不對模型做過多假設,參與訓練的資料集通常都要參與**。但非引數學習並不意味沒有引數,而是並不對整個問題進行某種模型定義。
三、機器學習步驟
通常學習乙個好的函式,分為以下三步:
1、選擇乙個合適的模型,這通常需要依據實際問題而定,針對不同的問題和任務需要選取恰當的模型,模型就是一組函式的集合。
2、判斷乙個函式的好壞,這需要確定乙個衡量標準,也就是我們通常說的損失函式(loss function),損失函式的確定也需要依據具體問題而定,如回歸問題一般採用歐式距離,分類問題一般採用交叉熵代價函式。
3、找出「最好」的函式,如何從眾多函式中最快的找出「最好」的那乙個,這一步是最大的難點,做到又快又準往往不是一件容易的事情。常用的方法有梯度下降演算法,最小二乘法等和其他一些技巧(tricks)。
學習得到「最好」的函式後,需要在新樣本上進行測試,只有在新樣本上表現很好,才算是乙個「好」的函式。
機器翻譯
生成文章摘要
情感分析 (sentiment analysis)
問答系統
人機系統
影象描述(image captioning)
上述幾類問題大多需要深度學習+強化學習來解決。
參考:
機器學習簡介
機器學習簡介 機器學習是人工智慧的乙個分支。人工智慧的研究是從以 推理 為重點到以 知識 為重點,再到以 學習 為重點,一條自然 清晰的脈絡。顯然,機器學習是實現人工智慧的乙個途徑,即以機器學習為手段解決人工智慧中的問題。機器學習在近30多年已發展為一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...
機器學習 簡介
機器學習,即人工智慧的乙個分支,人工智慧目前具有一定的限制,無法突破強人工智慧,即無法像人類一樣思考,感受等。機器學習其實就是通過大量的資料輸入,找出符合資料集的演算法模型,在輸入新的資料集時在進行判斷其屬性,是數學 計算機和統計學的集合。類似於人類的學習經驗,使用經驗判斷的過程。機器學習在於區分和...
機器學習簡介
機器學習101 在這篇博文中,我們將從以下幾個方面簡要地向大家介紹一下機器學習。如果你不是這方面的專家,也不需要擔心,因為在這篇博文中談及的內容僅需要高中的數學知識就足夠了。什麼是機器學習?牛津詞典將機器學習定義為 the capacity of a computer to learn from e...