機器學習入門課程(3) 回歸問題和聚類問題

2021-10-03 19:33:04 字數 1008 閱讀 6720

回歸問題用於**輸入變數和輸出變數之間的關係,特別時當輸入變數的值發生變化時,輸出變數值隨之發生變化。直觀來說,回歸問題等價於函式擬合,選擇一條函式曲線使其很好的擬合已知資料且**未知資料

回歸問題分類

線性回歸

​ 線性回歸演算法假設特徵和結果滿足線性關係。這就意味著可以將輸入項分別乘以一些常量,再將結果加起來得到輸出。

線性回歸演算法流程

線性回歸擴充套件演算法

用簡單的基函式代替輸入變數x,這樣就把線性擬合形式擴充套件到了固定非線性函式的線性組合(多項式擬合)。

過擬合問題:過於貼合訓練資料,導致在測試集效果變差。

lasso回歸

聚類問題是無監督學習的問題,演算法的思想就是「物以類聚,人以群分」。

聚類演算法感知樣本間的相似度,進行類別歸納,對新的輸入進行輸出**,輸出變數取有限個離散值。

1. k-means(k-均值或k-平均)聚類演算法

演算法思想

​ 首先確定k個中心點作為聚類中心,然後把每個資料點分配給最鄰近的中心點,分配完成後形成k個聚類,計算各個聚類的平均中心點,將其作為該聚類新的類中心點,然後重複迭代上述步驟直到分配過程不再產生變化。

演算法流程

優點

缺點

2. 高斯混合模型

​ 高斯混合模型指的是多個高斯分布函式的線性組合,是一種廣泛使用的聚類演算法,該方法使用了高斯分布作為引數模型。

k-means和高斯混合模型的比較

相似點:

不同點:

3. 密度聚類

4. 層次聚類

機器學習8回歸問題

對於之前在分類問題中有邏輯回歸,而對於這個線性回歸以前一般是先講述,將線性回歸的結果通過函式對映到 0,1 區間,再以0.5作為區分形成分類問題。具體的計算方法,在以前的blogs提到過,參考 下面就直接實戰 跟之前一樣,第一步匯入資料。def loaddataset filename numfea...

Udacity機器學習入門筆記5 回歸

2.udacity test 參考文獻 以下是一組用於線性回歸的方法,這些方法中,目標值是一組特徵的線性組合。在數學公式中,y hat y 是 值 y w,x w0 w1x1 w pxp hat w,x w w x ldots w x y w,x w 0 w 1 x1 wp x p 其中,向量w w...

機器學習(2) 回歸演算法 回歸分析

在統計學中,回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析 按照因變數的多少,可分為 簡單回歸 分析和多重回歸分析 按照 自變數和 因變數之間的關係型別,可分為 線性回歸 ...