非監督學習 聚類

2021-09-20 09:29:52 字數 957 閱讀 8671

目錄

k—均值(k-means):

附錄:監督學習需要訓練標記的資料,我們可以知道我們**的結果。在無監督演算法中資料點未被標記,我們不一定知道我們**的結果。

尋找每個類的中心,中心就是表徵資料的區域。

分兩步:分配,優化。不停的迭代這兩步,直到不再變化。

侷限性:區域性最小值的問題,k-means非常依賴於初始聚類中心所處的位置。

>>> from sklearn.cluster import kmeans

>>> import numpy as np

>>> x = np.array([[1, 2], [1, 4], [1, 0],

... [10, 2], [10, 4], [10, 0]])

>>> kmeans = kmeans(n_clusters=2, random_state=0).fit(x)

>>> kmeans.labels_

array([1, 1, 1, 0, 0, 0], dtype=int32)

>>> kmeans.predict([[0, 0], [12, 3]])

array([1, 0], dtype=int32)

>>> kmeans.cluster_centers_

array([[10., 2.],

[ 1., 2.]])

1、scikit-learn聚類的**:

2、多種方式選擇聚類 k:

3、matplotlib的顏色:

4、稀疏 csr 矩陣型別(如 scipi 庫中所定義):要從 pandas dataframe 轉換為稀疏矩陣,我們需要先轉換為 sparsedataframe,然後使用 pandas 的to_coo()方法進行轉換。

5、這是乙個簡單的推薦引擎,展示了「協同過濾」的最基本概念:

無監督學習 聚類

聚類是針對給定的樣本,根據據他們特徵的相似度或者距離,將其歸併到若干個 類 或 簇 的資料分析問題。乙個類是樣本的乙個子集。直觀上,相似的樣本在相同的類,不相似的樣本分散在不同的類。目的是通過得到的 類 或 簇 來發現資料的特點或者對資料進行處理,在資料探勘 模式識別等領域有著廣泛的應用。屬於無監督...

監督學習和非監督學習

重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...

監督學習和非監督學習

監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...