機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的演算法。機器學習演算法是一類從資料中自動分析獲得規律,並利用規律對未知資料進行**的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與統計推斷學聯絡尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。很多推論問題屬於無程式可循難度,所以部分的機器學習研究是開發容易處理的近似演算法。
機器學習是一類從資料中自動分析獲得規律,並利用規律對未知資料進行**。從這句話中我們知道要進行機器學習需要海量的資料,少量的資料可能不足以獲得規律,且有可能被被各種「雜訊」資料給淹沒了。過程是從資料中獲得規律,目的是對未知的資料進行**。而這又涉及到了選擇哪種合適的演算法,是否有通用的演算法,不同演算法的正確率如何,時間效率等各種問題。這些都跟我們實際中用到的資料有關。雖然採用的演算法各不相同,但是採用的步驟卻大同小異,包括收集資料,輸入資料,分析資料,訓練演算法,測試演算法和使用演算法。
機器學習常見的兩大類別:
l監督學習從給定的訓練資料集中學習出乙個函式,當新的資料到來時,可以根據這個函式**結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。常見的監督學習演算法包括回歸分析和統計分類。
l無監督學習與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習演算法有聚類。
l 至於半監督學習和增強學習這裡不涉及(其實是因為不懂o(∩_∩)o哈哈~)。
機器學習已經有了十分廣泛的應用,例如:
資料探勘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、**市場分析、dna序列測序、語音和手寫識別、戰略遊戲和機械人運用。
機器學習的語言常用的c/c++、python還有matlib這三種語言,在做專案工作的時候常用到的是c/c++語言,matlib和python適用於各種矩陣運算,因為python比較簡單,學個禮拜就可以大致明白相關的語法了,然後就可以在學習機器學習的過程中邊學邊用了。python還有兩個比較重要的庫用於我們學習這本書,那就是numpy——裡面提供了大量的矩陣處理函式。matplotlib——繪製圖,可以直觀的將資料或者過程展示出來。在《machine learning in action》這本書中就是使用python語言作為演示。我也將在這本書的學習心得系列中邊學邊用這門語言做演示。而在machine learning這門課學習心得系列中我將用c/c++語言作為演示。
還有乙個比較重要的是,最好有點數學知識,如概率論,統計,矩陣論,代數等知識,不求有多麼深的造詣,起碼知道是個什麼概念,不懂的話知道怎麼查詢資料學習。
機器學習簡單介紹
機器學習不是科幻電影。機器學習目的是解放生產力。機器學習 機器自主獲取事物的規律。要讓機器可以 學習 必須將生活中的資料 包括但不限於影象 文字 語音 數值化,將不同事物的變化和關聯轉化為運算。機器學習可以成立的原因是 概念和數值 關係和運算可以相互對映。1 有監督 訓練哈士奇就是典型的有監督學習,...
機器學習簡單介紹 一
1.機器學習方法 分為 有監督學習 無監督學習 半監督學習 增強學習 1 有監督學習 從給定的有標註的訓練資料集中學習出乙個函式 模型引數 當新的資料到來時可以根據這個函式 結果 分為分類 二分類 和回歸 填空 2 無監督學習 沒有標註的訓練資料集,需要根據樣本間的統計規律對樣本集進行分析,如聚類3...
機器學習簡單介紹part1
一 基本分類及定義 機器學習分為 監督學習,無監督學習,強化學習 監督學習是指 利用一組已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,也稱為監督訓練或有教師學習。監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。訓練資料報括一套訓練示例。在監督學習中,每個例項都是由乙個輸入物件 通...