機器學習入門 1 基本概念

2022-08-31 02:27:13 字數 1494 閱讀 8231

很多人剛接觸機器學習或神經網路的時候,被一些名詞給弄糊塗了,什麼人工智慧,機器學習,統計機器學習,神經網路,深度學習等。所以學習機器學習的第一步,是要理清楚這幾者的關係。為此,我利用了乙個圖來顯示出幾者的關係。

其中,機器學習是人工智慧領域的乙個分支,也是最能夠體現出智慧型的乙個分支。神經網路是機器學習其中乙個較為重要的演算法,還有其他的演算法,例如svm,決策樹,knn等等。深度學習簡單的來說就是多層神經網路。初學者頭腦裡大概有這麼個概念圖就行了,以後學習中會慢慢體會到的。

乙個很有名的權威定義,tom mitchell給出來的: 對於某類任務t和效能度量p,如果電腦程式在t上以p衡量的效能隨著經驗e而自我完善,那麼就稱這個電腦程式從經驗e學習。好吧,我相信你也不會從這個定義上真正了解機器學習的(這就是專家和普通人的區別)。

下面我從乙個簡單的例子來幫助大家理解什麼是機器學習,同時也介紹一下常用的一些基本術語(斜體的名詞)。

這裡,我拿《機器學習實戰》這本書上的乙個例子:

上面**是乙個資料集,每條記錄是關於乙個事件或者物件的描述,稱為乙個樣本,第一行的「不浮出水面是否生存」和「是否有腳蹼」稱為特徵,最後一列是關於每條記錄的類別。

上述**的機器學習過程可以簡單的描述為:從上面的海洋生物資料,既訓練資料,通過某個學習演算法(svm,knn,神經網路等)來學得乙個模型。在任意給定一組包含上述兩個特徵的但不知道是不是魚類的資料(比如「不浮出水面是否生存」=否,「是否有腳蹼」 = 否),通過學習得來的模型來** 該生物是不是魚類。

學得模型後,還要看其是否可以工作,就需要一組測試集用來測試該模型。

上面的學習過程其實是乙個分類的過程,我們判斷是否是魚類,其實就是將要一組資料通過學習得來的模型分為魚類和非魚類,這也是乙個二分類問題,既該類別中只有兩個類別,魚類和非魚類。現實生活中,通常不止涉及兩個類別,更多的是多個類別分類問題。

這裡我們涉及的類別魚類和非魚類是離散值,此類學習任務為分類,還有一種**的是連續值,此類學習任務成為回歸(這裡先記住,以後會講到回歸的)。

機器學習中還有一種學習任務,既給定訓練集,但每個樣本自身的類別不知道,沒有標記資訊,這是我們通過學習演算法學習資料內在的規律,既將這些資料分為若干組,每組成為乙個簇,這些學習得來的簇可能對應一些潛在的概念劃分,但我們的任務目標有時根本不關心每個簇屬於哪一類,這時該學習過程成為聚類。

綜上所述,機器學習可以簡單分為:

總結一下:機器學習就是在計算機上通過「學習演算法」從資料(訓練集)中產生模型,有了模型後,可以在面對新的資料時,幫助我們進行相應的判斷與**。

接下來,我們將接觸到機器學習中第乙個「學習演算法」,也可以稱得上最簡單的乙個演算法,k-近鄰演算法。

機器學習入門基本概念

資料集 data set 示例 instance 屬性 attribute 又稱特徵 feature 樣本空間 sample space 特徵向量 feature vector 維數 dimensionality 標記 label 學習 learning 訓練資料 training data 回歸 ...

機器學習(1) 基本概念

神經網路技術起源與上世紀50年代。當時叫做感知機。擁有輸入層,輸出層和乙個隱含層。這種感知機被稱為單層感知機 1959,機器學習被定義為不直接程式設計的情況下賦予計算機學習能力。1974年哈佛大學的paul werbos發明bp演算法。bp演算法正是用來求解這種多層復合函式的所有變數的偏導數的利器。...

機器學習1 基本概念

1.機器學習定義 機器學習 arthur samuel,1959 在確定程式設計之外給予計算機學習能力的研究領域。機器學習 tom mitchell,1998 如果電腦程式對於任務t的效能度量p通過經驗e得到了提高,則認為此程式對e進行了學習。2.機器學習四個主要內容 監督學習 包括回歸 連續性問題...