Python機器學習第一章

2022-09-11 19:48:11 字數 1784 閱讀 3752

1. 機器學習 (machine learning, ml)

1.1 概念:多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

1.2 學科定位:人工智慧(artificial intelligence, ai)的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。

1.3 定義:**和開發一系列演算法來如何使計算機不需要通過外部明顯的指示,而可以自己通過資料來學習,建模,並且利用建好的模型和新的輸入來進行**的學科。

arthur samuel (1959): 一門不需要通過外部程式指示而讓計算機有能力自我學習的學科

langley(1996) : 「機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中改善具體演算法的效能」

tom michell (1997):  「機器學習是對能通過經驗自動改進的計算機演算法的研究」

1.4: 學習:針對經驗e (experience) 和一系列的任務 t (tasks) 和一定表現的衡量 p,如果隨之經驗e的積累,針對定義好的任務t可以提高表現p,就說計算機具有學習能力

例子: 下棋,語音識別,自動駕駛汽車等

2)機器學習的應用:

語音識別

自動駕駛

語言翻譯

計算機視覺

推薦系統

無人機識別垃圾郵件

3)機器學習的基本概念

基本術語:

(1)資料集:由若干記錄組成的集合被稱作做資料集(data set),記錄是關於乙個事件或者物件的描述。

(2)屬性(特徵):對事物或者物件某一方面的表現或性質的事項,叫做屬性(attribute)。

(3)屬性空間(樣本空間、輸入空間):在屬性上能夠取到的範圍,叫做屬性空間(attribute value)。

(4)特徵向量:將所有的屬性張成乙個空間,對於每個物件都能在空間上找到自己的座標點,由於空間中的每個點對應的乙個座標向量,被稱作特徵向量(feature vector)。

(5)維數:一般,如果有d = 表示m個例項的資料集,而對每乙個示例有d個屬性,這xi =(xi1,xi2...xid)是d維樣本空間的乙個向量,xi屬於樣本空間(沒有超出取值範圍)那麼成d成為樣本xi的維數(dimensionnality)。

(6)學習(訓練):從資料學的模型的過程叫做學習(learning)或者訓練(training)。

(7)訓練資料:在學習的過程中使用的資料,叫做訓練資料(training data)。

(8)訓練樣本:每個資料樣本叫做訓練樣本(training sample)。

(9)訓練集:訓練樣本組成的集合叫做訓練集(training set)。

(10)標記:對與一組記錄的標籤叫做標記(label)。

(11)樣例:擁有標記資訊的例項,叫做樣例(example)。

(12)標記空間(輸出空間):一般,用(xi,yi)表示i個樣例,其中yi屬於y是示例xi的標記,y是所有標記的集合(標記的取值範圍),y被稱作標記空間(label space)。

4)機器學習分類:

(1)監督學習

分類和回歸:分類有兩種:第一種是二分類,通常的標記為兩個值,這一種叫做分類,另一種是多值分類,通常標記是連續的值,叫做回歸。(提前知道標記)

(2)無監督學習

聚類:將訓練集中的訓練資料分成若干組,每個組被稱為乙個簇,這些自動形成的簇可能對應一些潛在的概念劃分。(提前不知道,資料訓練時會形成簇。)

(3)強化學習

未完待續...

機器學習第一章

q 什麼是機器學習 機器學習不同於以往的計算機程式設計,致力於研究如何通過計算機手段,利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法,讓它自己學習,找到其種的規律。在面對新情況的時候就能應用已產生的模型,提供相應的判斷。機器學習的本質任...

機器學習第一章

今天進行了機器學習第一章的學習,我覺得首先你可以認清這些概念 1 模型 策略 演算法 2 分類與回歸的概念 3 監督 無監督 半監督問題 2 過擬合 欠擬合 下面是拓展的一些概念 海森矩陣 黑塞矩陣 hessian matrix 又譯作海森矩陣 海瑟矩陣 海塞矩陣等,是乙個多元函式的二階偏導數構成的...

《機器學習》 第一章

圖書館借了本機器學習,作者是 tom m.mitchell,亞馬遜這本書排名挺靠前的。好了,直接開篇。接下來大篇幅講述了,如何挑選訓練經驗,選擇目標函式,目標函式的表示,選擇函式逼近演算法。整個設計下來,分為了四大模組 執行系統 鑑定器 泛化器 實驗生成器。看過這本書的都會被第一章的跳棋學習深深吸引...