機器學習資料驅動的科學

引言：傳統上，計算機會按照我們輸入的指令一步步執行。而機器學習卻是通過輸入資料而不是指令來進行各種工作。

本文選自《深入淺出深度學習：原理剖析與python實踐》。

機器學習，也被稱為統計機器學習，是人工智慧領域的乙個分支，其基本思想是基於資料構建統計模型，並利用模型對資料進行分析和**的一門學科。

傳統上，如果想讓計算機工作，我們會編寫一段指令，然後讓計算機遵照這個指令一步一步執行下去。而機器學習則是採用另一種解決問題的思路，機器學習解決問題的方式不是通過輸入指令邏輯，而是通過輸入的資料，也就是說，機器學習是一種讓計算機利用資料而不是指令來進行各種工作的方法。

機器學習最基本的做法是使用演算法來解析資料，從資料中學習到規律，並掌握這種規律，然後對真實世界中的事件做出決策或**。與傳統的為解決特定任務、硬編碼的軟體程式不同，機器學習的核心是使用大量的資料來訓練，通過各種演算法從資料中學習如何完成任務。機器學習直接**於早期的人工智慧領域，在模式識別和計算機學習理論的研究中逐漸發展，並最終形成一門新的學科。與人工智慧類似，機器學習也是乙個跨學科的領域，涉及多個基礎學科，包括統計學、線性代數和數值計算等。

機器學習是基於訓練資料構建統計模型，從而使計算機具有對新資料進行**和分析的能力，機器學習方法按其實現的目標不同，可以分為：監督學習、無監督學習和強化學習。

監督學習（supervised learning）：監督學習使用帶有標籤的訓練資料集進行訓練，輸入的訓練資料由物體的特徵向量（輸入）和物體的標籤（輸出）兩部分構成，其中，若輸出的標籤是乙個連續的值，則稱為回歸監督學習；若輸出標籤是乙個離散的值，則稱為分類監督學習。

監督學習涉及兩個方面的工作：首先，根據提供的訓練資料，選擇一種合適的模型進行訓練，直至模型的訓練收斂。常見的監督學習模型包括：logistic回歸、決策樹、svm（support vector machines，支援向量機）、knn、樸素貝葉斯等。下圖展示的是乙個水果分類的例子，每乙個樣本資料的輸入是由物體的特徵構成的特徵向量，如物體的顏色、大小、形狀等，輸出的是物體的類別，如蘋果、葡萄、香蕉等。

監督學習模型訓練，演算法利用訓練資料提供的特徵資訊，如顏色、大小、形狀等，構建概率模型p(y|x)或非概率模型y=f(x)

其次，當模型訓練完畢，就可以把新的輸入資料代入模型，模型將根據新資料的特徵資訊，找出最符合這種特徵的輸出結果，其過程如下。

模型**

無監督學習（unsupervised learning）：無監督學習的訓練樣本資料沒有任何的標籤和輸出，其目的是對原始資料結構進行深入分析，找出資料間存在的規律與關係。典型的無監督學習任務包括：聚類、降維、特徵提取等。

兩種常見的無監督學習，(a)資料聚類，(b)資料降維

deepmind利用強化學習技術在迷宮遊戲中執行搜尋任務（摘自網路）

本文選自《深入淺出深度學習：原理剖析與python實踐》，點此鏈結可在博文視點官網檢視此書。

機器學習資料驅動的科學

關於機器學習資料科學面試的準備

資料科學機器學習的工作流程

Python資料科學手冊（5）機器學習

機器學習 資料驅動的科學

關於機器學習 資料科學面試的準備

資料科學 機器學習的工作流程

Python資料科學手冊（5） 機器學習

相關推薦

機器學習資料驅動的科學

關於機器學習資料科學面試的準備

資料科學機器學習的工作流程

Python資料科學手冊（5）機器學習