機器學習綜述

2021-07-30 03:11:02 字數 684 閱讀 1876

機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

基本目標是學習乙個x->y的函式(對映),來做分類或者回歸的工作。

「用機器學習的方法來進行資料探勘。」機器學習是一種方法;資料探勘是一件事情;還有乙個相似的概念就是模式識別,這也是一件事情。

標籤的獲取是非常困難的,所以非監督和半監督也很常見

在訓練集上的表現很好,但是在驗證集上的表現很差,泛化能力不足。原因

解決 機器學習的過程都是乙個找到乙個模式,讓他的損失函式最小。

然後將該模型泛化於其他所有資料

這是ml的本質

在兩個集上的表現都差,損失函式非常大

原因:

解決主要用的語言是python,以及sklearn,numpy,panda包。

文章和內容主要是偏向於工程的,機器學習博大精深,能學多少是多少。

在工程中,經驗和對業務的理解非常重要。有時候可能達到數量級上的提公升。

訓練集:用於訓練模型的資料

測試集:用於驗證模型正確性的資料

機器學習綜述

監督學習 無監督學習 強化學習 遷移學習 演算法 線性回歸 k 近鄰演算法 決策樹 隨機森林 pca 神經網路 將標註好的和測試的樣本對映到座標系中,選取距離該測試樣本歐式距離最近的k個訓練樣本,其中哪個訓練樣本佔比最大,我們就認為它是該測試樣本所屬類別。knn可以處理數值型和標稱型資料,原因在於計...

機器學習(一)綜述

剛碩士畢業了,趁著對所學知識還有記憶,趕快把之前筆記整理下,寫成部落格也方便整理。機器學習真是一門詭異的課程啊,感覺學了什麼又感覺什麼也沒學 主要內容 機器學習的基本過程 評估機器學習演算法 交叉檢驗 機器學習分為 監督學習 分類 1.1 決策樹 1.2 knn 1.3 svm 1.4 人工神經網路...

統計機器學習綜述

記錄學習心得 一 什麼是機器學習 統計學習 統計學習就是根據資料來構建概率統計模型並用該模型對資料進行 與分析。那麼其中可以看出,資料是基礎,目的是對資料進行 與分析。根據定義可以提出幾個問題 需要什麼樣的資料?構建什麼樣的模型?以什麼方法構建?如何評價構建出來的模型的好壞?1 需要什麼樣的資料 需...