機器學習中的幾個概念區分

2021-09-10 20:16:22 字數 1774 閱讀 6582

通俗的說就是:監督學習演算法訓練含有很多特徵的帶標籤(label 或 target)的資料集,來對新的資料集的標籤做出**。我們把需要訓練的資料集稱為訓練集(trainset),需要**的資料集稱為測試集

我們可以將其形式化(n 表示樣本個數):

input: trainset = \_^n

output: 對映 f: x_i \mapsto y_i ,\;\; i \in \

上面的 x_i 表示特徵向量(由若干特徵組成的向量),y_i 表示標籤值。

常見的非監督式學習是資料聚類。在人工神經網路中,生成對抗網路(gan)、自組織對映(som)和適應性共振理論(art)則是最常用的非監督式學習。

在機器學習問題中,環境通常被規範為馬可夫決策過程(mdp),所以許多強化學習演算法在這種情況下使用動態規劃技巧。傳統的技術和強化學習演算法的主要區別是,後者不需要關於mdp的知識,而且針對無法找到確切方法的大規模mdp。

因此,強化學習對於包含長期反饋的問題比短期反饋的表現更好。它在許多問題上得到應用,包括機械人控制、電梯排程、電信通訊、雙陸棋和西洋跳棋。[1]

半監督學習(semi-supervised learning,ssl)是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。它主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題。主要分為半監督分類,半監督回歸,半監督聚類和半監督降維演算法。

至於直推學習,它與半監督學習一樣不需要人工干預,不同的是,直推學習假設未標記的資料就是最終要用來測試的資料,學習的目的就是在這些資料上取得最佳泛化能力。相對應的,半監督學習在學習時並不知道最終的測試用例是什麼。

也就是說,直推學習其實類似於半監督學習的乙個子問題,或者說是乙個特殊化的半監督學習,所以也有人將其歸為半監督學習。

假設有如下的資料集,其中訓練集為 x_l+x_u,測試集為 x_,標記樣本數目為 l,未標記樣本數目為 u,l \ll u

純半監督學習是一種歸納學習(inductive learning),可以對測試樣本x_ 進行**。也即純半監督學習是基於「開放世界」的假設。

直推學習是 transductive 學習,僅僅可以對未標記樣本 x_u 進行標記,模型不具備對測試樣本 x_ 進行泛化的能力。直推學習是基於「封閉世界」的假設。

直推學習假設未標記的資料就是最終要用來測試的資料,學習的目的就是在這些資料上取得最佳泛化能力。相對應的,純半監督學習在學習時並不知道最終的測試用例是什麼。

主動學習指的是這樣一種學習方法:有的時候,有類標的資料比較稀少而沒有類標的資料是相當豐富的,但是對資料進行人工標註又非常昂貴,這時候,學習演算法可以主動地提出一些標註請求,將一些經過篩選的資料提交給專家進行標註。這個篩選過程也就是主動學習主要研究的地方了。

主動學習的主動指的是主動提出標註請求,也就是說還需要乙個外在的能夠對其進行標註的實體(通常是相關人員),即主動學習是互動進行的。其目標是使用盡量少的「查詢」(query)來獲得盡量好的效能。主動學習引入了額外的專家知識,用過與外界的互動來將部分未標記樣本轉變為有標記樣本。

監督式學習 ↩

區分幾個概念

衝突域 衝突域就是連線在同一導線上的所有工作站的集合 或者說是同一物理 網段上所有節點的集合,或 乙太網上競爭同一 頻寬的節點集合。廣播域 廣播域就是指網路中所有能接收到同樣廣播訊息的裝置的集合。交換機每乙個埠是乙個衝突域 路由器每乙個埠是乙個廣播域 衝突域是物理層的概念 廣播域是鏈路層的概念 vl...

機器學習中的幾個概念的關係

目前,機器學習主要由以下三條主線進行發展 graph lr subgraph 三代神經網路 a 1 線性分類器 b 2 非線性分類器 b svm c 3 深度學習 a1 感知器網路 b a1 a2 a2 logistic 網路 b a2 p p bp 網路 b c1 som 網路 b d1 玻耳茲曼...

效能測試的幾個概念區分

隨著單位時間流量的不斷增長,被測系統的壓力不斷增大,伺服器資源會不斷被消耗,tps值會因為這些因素而發生變化,而且符合通常情況下的規律。以下是乙個效能測試壓力變化模型圖 說明 a點 效能期望值 b點 高於期望,系統資源處於臨界點 c點 高於期望,效能處於拐點 d點 超過負載,資源不夠用,系統處於崩潰...