01 機器學習簡介

1. 課程介紹 (人工智慧—機器學習—神經網路—深度學習)

2. 機器學習（machine learning, ml)

2.1 概念：多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。

2.2 學科定位：人工智慧(artificial intelligence, ai）的核心，是使計算機具有智慧型的根本途徑，其應用遍及人工智慧的各個領域，它主要使用歸納、綜合而不是演繹。

2.3 定義：**和開發一系列演算法來如何使計算機不需要通過外部明顯的指示，而可以自己通過資料來學習，建模，並且利用建好的模型和新的輸入來進行**的學科。

arthur samuel (1959): 一門不需要通過外部程式指示而讓計算機有能力自我學習的學科

langley（1996) ：「機器學習是一門人工智慧的科學，該領域的主要研究物件是人工智慧，特別是如何在經驗學習中改善具體演算法的效能」

tom michell (1997): 「機器學習是對能通過經驗自動改進的計算機演算法的研究」

2.4：學習：針對經驗e (experience) 和一系列的任務t (tasks) 和一定表現的衡量p，如果隨之經驗e的積累，針對定義好的任務t可以提高表現p，就說計算機具有學習能力

例子：下棋，語音識別，自動駕駛汽車等

3. 機器學習的應用：

語音識別

自動駕駛

語言翻譯

計算機視覺

推薦系統

無人機識別垃圾郵件

4. demo：

人臉識別

無人駕駛汽車

電商推薦系統

5. 置業市場需求：linkedin所有職業技能需求量第一：機器學習，資料探勘和統計分析人才

2. 機器學習就業需求：

linkedin所有職業技能需求量第一：機器學習，資料探勘和統計分析人才

3. 深度學習(deep learning)

3.1 什麼是深度學習？

深度學習是基於機器學習延伸出來的乙個新的領域，由以人大腦結構為啟發的神經網路演算法為起源加之模型結構深度的增加發展，並伴隨大資料和計算能力的提高而產生的一系列新的演算法。

3.2 深度學習什麼時間段發展起來的？

其概念由著名科學家geoffrey hinton等人在2023年和2023年在《sciences》等上發表的文章被提出和興起。

3.3 學習能用來幹什麼？為什麼近年來引起如此廣泛的關注？

深度學習，作為機器學習中延伸出來的乙個領域，被應用在影象處理與計算機視覺，自然語言處理以及語音識別等領域。自2023年至今，學術界和工業界合作在深度學習方面的研究與應用在以上領域取得了突破性的進展。以imagenet為資料庫的經典影象中的物體識別競賽為例，擊敗了所有傳統演算法，取得了前所未有的精確度。

3.4 深度學習目前有哪些代表性的學術機構和公司走在前沿？人才需要如何？

3.5深度學習如今和未來將對我們生活造成怎樣的影響？

4. 深度學習的應用展示：

4.1 無人駕駛汽車中的路標識別（nvidia）

4.2 google now中的語音識別

1. 基本概念：訓練集，測試集，特徵值，監督學習，非監督學習，半監督學習，分類，回歸

2. 概念學習：人類學習概念：鳥，車，計算機

定義：概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式

3. 例子：學習「享受運動" 這一概念：

小明進行水上運動，是否享受運動取決於很多因素

天氣：晴，陰，雨

溫度：暖，冷

濕度：普通，大

風力：強，弱

水溫：暖，冷

預報：一樣，變化

享受運動：是，否

概念定義在例項(instance)集合之上，這個集合表示為x。（x：所有可能的日子，每個日子的值由天氣，溫度，濕度，風力，水溫，預報6個屬性表示。

待學習的概念或目標函式成為目標概念（target concept), 記做c。

c(x) = 1, 當享受運動時，c(x) = 0 當不享受運動時，c(x)也可叫做y

x: 每乙個例項

x: 樣例, 所有例項的集合

學習目標：f: x -> y

4. 訓練集(training set/data)/訓練樣例（training examples): 用來進行訓練，也就是產生模型或者演算法的資料集

測試集(testing set/data)/測試樣例(testing examples)：用來專門進行測試已經學習好的模型或者演算法的資料集

特徵向量(features/feature vector)：屬性的集合，通常用乙個向量來表示，附屬於乙個例項

標記(label): c(x), 例項類別的標記

正例(positive example)

反例(negative example)

5. 例子：研究美國矽谷房價

影響房價的兩個重要因素：面積(平方公尺），學區（評分1-10）

6. 兩類基本問題

分類(classification): 目標標記為類別型資料(category) （例如是否）

回歸(regression): 目標標記為連續性數值(continuous numeric value)（例如房價）

7. 例子：研究腫瘤良性，惡性於尺寸，顏色的關係

特徵值：腫瘤尺寸，顏色

標記：良性/惡性

有監督學習(supervised learning)：訓練集有類別標記(class label)

（例如是否享受運動）

無監督學習(unsupervised learning)：無類別標記(class label)

（例如腫瘤例子）

半監督學習（semi-supervised learning)：有類別標記的訓練集+ 無標記的訓練集

（部分有，部分無）

8. 機器學習步驟框架

8.1 把資料拆分為訓練集和測試集

8.2 用訓練集和訓練集的特徵向量來訓練演算法

8.2 用學習來的演算法運用在測試集上來評估演算法（可能要設計到調整引數（parameter tuning), 用驗證集（validation set）

例如小明享受運動問題：

100天：訓練集

10天：測試集（不知道是否「享受運動」，知道6個屬性，來**每一天是否享受運動）

01 機器學習簡介

機器學習筆記01 機器學習簡介

機器學習簡介

機器學習 簡介

相關推薦

機器學習簡介