1. 機器學習的步驟
資料,模型選擇,訓練,測試,**
2. 安裝機器學習庫sklearn
pip list 檢視版本
python -m pip install --upgrade pip
pip install -u scikit-learn
pip uninstall sklearn
pip uninstall numpy
pip uninstall scipy
pip install scipy
pip install numpy
pip install sklearn
2. 匯入sklearn的資料集
from sklearn.datasets import load_iris
iris = load_iris()
iris.keys()
x = iris.data # 獲得其特徵向量
y = iris.target # 獲得樣本標籤
iris.feature_names # 特徵名稱
3.k均值演算法
k-means是乙個反覆迭代的過程,演算法分為四個步驟:
(x,k,y)
1) 選取資料空間中的k個物件作為初始中心,每個物件代表乙個聚類中心;
def initcenter(x, k): kc
2) 對於樣本中的資料物件,根據它們與這些聚類中心的歐氏距離,按距離最近的準則將它們分到距離它們最近的聚類中心(最相似)所對應的類;
def nearest(kc, x[i]): j
def xclassify(x, y, kc):y[i]=j
3) 更新聚類中心:將每個類別中所有物件所對應的均值作為該類別的聚類中心,計算目標函式的值;
def kcmean(x, y, kc, k):
4) 判斷聚類中心和目標函式的值是否發生改變,若不變,則輸出結果,若改變,則返回2)。
while flag:
y = xclassify(x, y, kc)
kc, flag = kcmean(x, y, kc, k)
參考官方文件:
4. 作業:
1、撲克牌手動演練k均值聚類過程:>30張牌,3類
①聚類中心為6、10,2 進行分類
②平均值分別為6、9、3
③再以6、9、3為新的聚類中心來分類
④均值不變,分類結束。
2、自主編寫k-means演算法 ,以鳶尾花花瓣長度資料做聚類,並用散點圖顯示。(加分題)
3、用sklearn.cluster.kmeans,鳶尾花花瓣長度資料做聚類,並用散點圖顯示.
4、鳶尾花完整資料做聚類並用散點圖顯示.
5、想想k均值演算法中以用來做什麼?比如說在一些球隊的運營中 可以用來評估隊伍中球員的得分優劣勢
3 K均值演算法
2 自主編寫k means演算法 以鳶尾花花瓣長度資料做聚類,並用散點圖顯示。加分題 1 import numpy as np 2from sklearn.datasets import load iris 3import matplotlib.pyplot as plt 45 iris load ...
3 K均值演算法
作業 1 撲克牌手動演練k均值聚類過程 30張牌,3類 隨機在撲克牌中抽取30張牌,當中取3張聚類中心10,5,2 進行分 計算三堆牌的平均值分別為10.5,5.5,2。以11,6,2為新的聚類中心來分類 計算平均值,均值不變,分類結束。2 自主編寫k means演算法 以鳶尾花花瓣長度資料做聚類,...
3 K均值演算法
4.作業 1 撲克牌手動演練k均值聚類過程 30張牌,3類 第一種劃分 第二種劃分 2 自主編寫k means演算法 以鳶尾花花瓣長度資料做聚類,並用散點圖顯示。加分題 如下 from sklearn.datasets import load iris import numpy as np impo...