什麼是機器學習

2021-07-23 03:39:28 字數 1620 閱讀 2984

廣州的天氣總是陰晴不定,經常上午陽光燦爛,下午突然烏雲密布,狂風亂作,然後就是傾盆大雨。每次看見烏雲和大風,人們就知道要下大雨了。為什麼我們看見烏雲感受到大風,就知道要下雨了呢?我們能做出這些有效的預判,是因為我們已經積累了許多經驗,而通過對經驗的利用,就能對新情況做出有效**。那麼,這樣利用經驗做出判斷的工作,計算機能夠實現嗎?

機器學習正是這樣一門學科,計算機中,經驗通常以資料的形式存在,機器學習所研究的內容,是關於在計算機上從資料中產生模型的演算法,也就是學習演算法(名詞)。我們把經驗資料提供給學習演算法,它就能根據這些資料產生模型,在面對新的情況時,模型會給我們提供相應的判斷。

基本術語(以判斷天氣情況為例):

資料集:一組記錄合集,乙個記錄為乙個樣本。

樣本:資料集中的一條記錄。是對乙個事件或物件的描述。如:(颳風 = 是; 溫度 = 25; 濕度 = 99)

屬性或特徵:反映事件或物件在某方面的表現或性質。如:颳風、溫度、濕度。

屬性值:屬性的取值。

樣本空間:如果我們把上述三個屬性作為三個座標軸,則他們形成乙個用於描述天氣的三維空間,每乙個天氣描述都可以在這個空間中找到自己的座標。

特徵向量:在樣本空間中的每乙個點對應乙個座標向量,因此乙個樣本也叫做特徵向量。上述例子的樣本維度是3(3個屬性),因此是乙個三維向量。

訓練集:作為經驗提供給學習演算法的資料集。

訓練樣本:訓練集中的記錄,包含結果資訊。如:((颳風 = 是; 溫度 = 25; 濕度 = 99),雨天)

測試集:新的需要判斷類別的資料集,用於測試產生的模型是否準確。

測試樣本:用於被**結果的樣本。

機器學習有兩類:分類回歸。分類的結果是離散值,例如天氣情況:晴天、雨天、多雲。離散的**結果是連續值,例如下雨的概率:0.95、0.88、0.24 。

根據訓練資料集是否有標記資訊,學習任務分為監督學習和無監督學習。分類和回歸都屬於監督學習,根據已有的例子(知道什麼情況是雨天什麼情況是晴天),來對新的樣本做出判斷。無監督學習的代表是聚類,所謂聚類是指:並不知道訓練集的具體類別結果資訊,但是可以根據樣本在樣本空間中的座標位置,把他們分成幾個組(通常是根據距離劃分),這些自動形成的組對應一些潛在概念的劃分。也就是說,分出來的組你可能並不知道它究竟是什麼類別,但是這些樣本具有某些共同特徵。

影響**準確度的因素有:是否採用了正確的學習演算法,訓練集樣本選擇是否合理,用於**的屬性特徵是否合理。一般來說,訓練樣本集要符合現實情況的規律,即和測試樣本集最好同分布。

最後,推薦一下一本不錯的機器學習書籍,南大周志華寫的《機器學習》,很適合入門學習。自己目前也是剛剛開始學習機器學習~用的就是這本教材。吳恩達以前在standford的機器學習公開課也很不錯~

以上 歡迎指正錯誤 共同學習

什麼是機器學習

機器學習 machine learning 是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納 綜合而不是演譯。學習能力是智慧型行為的乙個非常重...

什麼是機器學習?

簡單的一句話 讓機器從資料中學習,進而得到乙個更加符合現實規律的模型,通過對模型的使用使得機器比以往表現的更好,這就是機器學習。詳解 資料 從現實生活抽象出來的一些事物或者規律的特徵進行數位化得到。學習 在資料的基礎上讓機器重複執行一套特定的步驟 學習演算法 進行事物特徵的萃取,得到乙個更加逼近於現...

什麼是機器學習

當第一次試著程式設計時,我就愛上了這門藝術 是的,我相信程式設計既是科學又是藝術 我很快就迷上了如何通過設定邏輯規則和條件來控制程式的流程,if.else語句,switch,迴圈等等。在接下來的幾年裡,我學會了通過建立模組和將 段抽象成函式和類的手段來保持 整潔。我通過物件導向的分析和設計 ooa ...