機器學習介紹

2022-08-22 10:27:15 字數 1981 閱讀 2514

機器學習面對的是高度不確定的世界中的問題e.g. 傳統垃圾郵件分類問題

傳統解決思路:設定規則, 定義「垃圾郵件」, 讓計算機去執行規則。

問題:對很多問題規則難以定義,比如識別乙隻貓或人臉識別。且規則總在不斷變化。

新思路:借鑑人類學習的過程,資料->學習歸納總結->知識經驗積累->對類似問題做出正確反應

機器學習:

model即f(x)

機器學習的應用:

搜尋引擎根據輸入的部分關鍵字聯想出你最可能想搜尋的內容

瀏覽商品時,最有可能購買的商品

可能喜歡的**,圖書,文章

語音識別,人臉識別

醫療診斷,市場分析,金融領域

無人駕駛

宇宙探索,藥物研發

訓練資料有標記或答案

一些複雜任務可轉換為分類任務,如無人車任務,時刻在方向盤各種角度和剎車/油門深淺的組合中選乙個。

回歸任務regression,結果是乙個連續數字的值而非類別。

一些回歸問題可以被看成分類問題 --> 將連續數值劃分區間成乙個個類別。

演算法:k近鄰,線性回歸,多項式回歸,邏輯回歸,svm,決策樹和隨機森林。

訓練資料無標記

有時特徵間的關聯特別強,如上圖中所有的點都有乙個整體的趨勢。可將這些點用紅線涵蓋。此時則將二維壓縮為了一維。 

一部分資料有標記,另一部分沒 --> 現實中更常見,因各種原因缺失資料。

通常先用無監督學習處理資料(使無標籤資料因與有標籤資料一類而獲得標籤),再用監督學習手段訓練模型做**。

採取行動->獲得反饋(獎賞或懲罰)->改進演算法(agent)->...

通過一輪一輪的行動->反饋的迴圈中來調整agent增強自己的智慧型。

如alphago,機械人,無人駕駛。

資料集data set:資料整體

樣本sample:每一行資料

特徵feature:每一列資料

標記label:分類

第i個樣本:i行;第j個特徵值:j列。大寫字母表示矩陣(如x),小寫字母表示向量(如y)

每一行也是乙個向量,稱作特徵向量x(i)。

行向量:1*n,1行n列

列向量:n*1,n列1行

在數學中通常將向量表示為列向量。因此特徵向量x(i)表示為如下形式:

因此上表可表示成如下形式,x(1)t即表示原表中第一行資料:

特徵空間feature space:由各種特徵構成的n維空間(一維到n維),分類任務的本質即切分特徵空間。(不同的切分方法即不同機器學習演算法的由來)。

tip:有時在高維空間中思考問題太複雜可將其先降到低維空間視覺化,得到解決辦法再推廣到高維空間。難問題拆解為小問題。

特徵並不總是很直觀,也可以很抽象,如影象的每乙個畫素點,乙個28*28的圖=784個特徵。

ref:

機器學習(介紹)

a computer program is said to learn from experienceewith respect to some class of taskstand performance measurep,if its performance at tasks int,as me...

機器學習介紹

本文主要參考scikit learn機器學習 常用演算法原理及程式設計實踐 原始碼連線 本文包括 介紹機器學習應用,機器學習的分類,機器學習開發的典型步驟 得益於摩爾定律,計算機硬體 cpu gpu 為很多通過大量資料學習的演算法提供很好的條件,這類演算法稱為機器學習演算法。傳統演算法 資料 人工設...

機器學習介紹

機器學習是一種能夠賦予機器學習的能力以此讓它完成直接程式設計無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用資料,訓練出模型,然後使用模型 的一種方法。機器學習界的乙個特色就是演算法眾多,發展百花齊放。以下六個演算法是使用最多,影響最廣 按照訓練的資料有無標籤,可以將上面演算法分為...