機器學習基本概念

什麼是學習？

如果乙個系統能夠通過執行某個過程改進它的效能，這就是學習。（赫爾伯特·西蒙）

什麼是機器學習？

對於某給定的任務

t ，在合理的效能度量方案

p的前提下，電腦程式可以通過自主學習任務

t 的經驗

e；隨著提供合適，優質，大量的經驗

e ，該程式對於任務

t的效能逐步提高。（任務，經驗，效能）

什麼是統計機器學習？

（這裡主要是針對監督學習的定義）

方法=模型+策略+演算法

模型：所需要學習的條件概率分布或者決策函式；其決策空間包括所有可能條件概率分布或決策函式；

策略：學習的準則；兩個基本策略，經驗風險最小化，結構風險最小化；

演算法：學習模型的計算方法，最優化方法。

有監督學習

每組訓練資料有乙個明確的label。在建立模型時（模型），通過建立乙個學習過程（演算法），將**結果和真實結果比較，不斷調整，知道達到預期的準則（策略）要求。

無監督學習

資料沒有label，學習模型是為了推斷出資料的一些內在結構。常見的演算法有aprior（關聯分析），k-means（聚類）等。

半監督學習

資料部分有label，部分沒有，是上述兩種方法的結合，通常首先對沒有label的資料進行建模，然後對有label的資料**。

強化學習

輸出資料作為模型的反饋，模型必須及時的作出調整。更多應用在機械人控制及系統控制領域，常見演算法有q-learning及時間差學習。

判別式學習

由資料直接學習決策函式 y=

f(x)

或者條件概率分布p(

y|x)

作為**的模型;通過尋找不同類別之間的最優分類面，反應的是異類資料之間的差異，不能放映訓練資料本身的特性。

特點：分類邊界更靈活，效果更好，適用類別多，比較容易學習；缺點是不能反映資料特性；

常見的演算法有：線性回歸，logistic回歸，支援向量機，決策樹，分類會歸樹（cart），k近鄰，神經網路，高斯過程，條件隨機場（crf）。

生成式學習

由資料直接學習聯合概率密度分布p(

x|y)

，然後求出條件概率分布p(

y|x)

作為**模型；統計表示資料的分布情況，能夠反映資料本身的特性，但是不關心分類邊界的問題。

特點：資訊更豐富，更靈活，適用於資料不完整情況；缺點是學習過程更複雜；

常見的演算法有：高斯判別分析（gda），樸素貝葉斯（nb），混合高斯模型，貝葉斯網路，馬爾科夫隨機場，深度信念網路（dbn），隱馬爾科夫模型（hmm）。

兩者的關係

生成學習可以得到判別學習，反之不行；

1.基本的概念領域集乙個任意的集合集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集學習器所追求的結果集合。可以為，器想要得到的最終資料。訓練資料帶標籤的領域及元素集合，通常會組成乙個區域性聚合s，也叫作訓練集。2.機器學習的一般流程採集資料標記訓練得到器乙個學習...

1.基本概念訓練集測試集特徵值監督式學習非監督學習半監督學習分類回歸 2.概念學習概念學習是指從某個布林函式的輸入輸出訓練樣例中推斷出該布林函式。3.樣例天氣溫度濕度風力水溫預報享受運動 1 晴暖普通強暖一樣是 2 晴暖大強暖一樣是 3 雨冷...

1 定義訓練好的分類器對訓練樣本很好的分類，但是對測試樣本的分類結果很糟糕。2 原因特徵維度過多，導致擬合的函式完美的經過訓練集，但是對新資料的結果則較差。3 解決方法減少特徵維度可以人工選擇保留的特徵，或者模型選擇演算法正則化保留所有的特徵，通過降低引數的值，來影響模型 1 定義 ...