機器學習 資料驅動的科學

2021-08-19 12:57:27 字數 1766 閱讀 3129

引言:傳統上,計算機會按照我們輸入的指令一步步執行。而機器學習卻是通過輸入資料而不是指令來進行各種工作。

本文選自《深入淺出深度學習:原理剖析與python實踐》。

機器學習,也被稱為統計機器學習,是人工智慧領域的乙個分支,其基本思想是基於資料構建統計模型,並利用模型對資料進行分析和**的一門學科。

傳統上,如果想讓計算機工作,我們會編寫一段指令,然後讓計算機遵照這個指令一步一步執行下去。而機器學習則是採用另一種解決問題的思路,機器學習解決問題的方式不是通過輸入指令邏輯,而是通過輸入的資料,也就是說,機器學習是一種讓計算機利用資料而不是指令來進行各種工作的方法。

機器學習最基本的做法是使用演算法來解析資料,從資料中學習到規律,並掌握這種規律,然後對真實世界中的事件做出決策或**。與傳統的為解決特定任務、硬編碼的軟體程式不同,機器學習的核心是使用大量的資料來訓練,通過各種演算法從資料中學習如何完成任務。機器學習直接**於早期的人工智慧領域,在模式識別和計算機學習理論的研究中逐漸發展,並最終形成一門新的學科。與人工智慧類似,機器學習也是乙個跨學科的領域,涉及多個基礎學科,包括統計學、線性代數和數值計算等。

機器學習是基於訓練資料構建統計模型,從而使計算機具有對新資料進行**和分析的能力,機器學習方法按其實現的目標不同,可以分為:監督學習、無監督學習和強化學習。

監督學習(supervised learning):監督學習使用帶有標籤的訓練資料集進行訓練,輸入的訓練資料由物體的特徵向量(輸入)和物體的標籤(輸出)兩部分構成,其中,若輸出的標籤是乙個連續的值,則稱為回歸監督學習;若輸出標籤是乙個離散的值,則稱為分類監督學習。

監督學習涉及兩個方面的工作:首先,根據提供的訓練資料,選擇一種合適的模型進行訓練,直至模型的訓練收斂。常見的監督學習模型包括:logistic回歸、決策樹、svm(support vector machines,支援向量機)、knn、樸素貝葉斯等。下圖展示的是乙個水果分類的例子,每乙個樣本資料的輸入是由物體的特徵構成的特徵向量,如物體的顏色、大小、形狀等,輸出的是物體的類別,如蘋果、葡萄、香蕉等。

監督學習模型訓練,演算法利用訓練資料提供的特徵資訊,如顏色、大小、形狀等,構建概率模型p(y|x)或非概率模型y=f(x)

其次,當模型訓練完畢,就可以把新的輸入資料代入模型,模型將根據新資料的特徵資訊,找出最符合這種特徵的輸出結果,其過程如下。

模型**

無監督學習(unsupervised learning):無監督學習的訓練樣本資料沒有任何的標籤和輸出,其目的是對原始資料結構進行深入分析,找出資料間存在的規律與關係。典型的無監督學習任務包括:聚類、降維、特徵提取等。

兩種常見的無監督學習,(a)資料聚類,(b)資料降維

deepmind利用強化學習技術在迷宮遊戲中執行搜尋任務(摘自網路)

本文選自《深入淺出深度學習:原理剖析與python實踐》,點此鏈結可在博文視點官網檢視此書。

關於機器學習 資料科學面試的準備

自己是科班出身,自己也學過a,b,c,d等等課程,自己也做過專案,甚至之前也有實習 全職經歷。現在面全職 跳槽了,請問你準備好了嗎?leetcode是要刷的,可別光乙個勁的刷leetcode啊,背那些o nlogn 那些的,我們這個職位不是招後端。問 這個是 結果,你來手算個recall吧。答 這個...

資料科學 機器學習的工作流程

摘要 理解資料科學的工作流程,有助於我們合理有序地把控相關專案的開展。常見的整個過程包括 獲取,檢查和探索,清理和準備,建模,評估和最後的部署。機器學習應用中的資料,可以來自不同的資料來源,它可能是通過電子郵件傳送csv檔案,也可能是從伺服器中拉取的日誌,或者它可能需要構建自己的web爬蟲。資料可能...

Python資料科學手冊(5) 機器學習

python資料科學手冊最後一章講的是機器學習,這是乙個很大的課題,每一種演算法都可以鑽研,遠不是一篇文章能講清楚的,這裡主要總結一下書中關於特徵工程的課題。俗話說,巧婦難為無公尺之炊。在機器學習中,資料和特徵便是 公尺 模型和演算法則是 巧婦 對於乙個機器學習問題,資料和特徵往往決定了結果的上限。...