k meanas原理自實現

2021-09-27 04:47:20 字數 3864 閱讀 4572

import numpy as np

import matplotlib.pyplot as plt

def build_data():

"""準備資料

:return:準備好的資料

"""data_list =

# 載入資料

with open("./test.txt") as f:

# 將所有的元素讀成乙個列表

lines = f.readlines()

# 迴圈對每一行元素進行單獨處理

for line in lines:

# print(line)

# 去除line 前後的空白字元

line_obj = line.strip().split('\t')

# print(line_obj)

# print(type(line_obj))

# print("*"*20)

# 把 line_obj 裡面的每乙個元素 轉化為float,追加到一列表中

# 列表巢狀列表的資料 ,每乙個列表元素是原來的每一行元素

# print(data_list)

# 將列表巢狀列表轉化為二維陣列

data_array = np.array(data_list)

# print(data_array)

# 將二維陣列 轉化為矩陣

data = np.mat(data_array)

# print(data)

# print(type(data))

return data

def center_init(data, k):

"""初始化聚類中心

:param data: 所有的樣本資料

:param k: 聚類的類別數目

:return: 聚類中心

"""# 隨機在 data中挑選4行 作為初始化的聚類中心

# 獲取data 的列數

columns_num = data.shape[1]

# 獲取data 的行數

index_num = data.shape[0]

# 先初始化乙個全為0 的中心,然後,後續替換裡面的值

center = np.zeros(shape=(k, columns_num))

# 每次初始化乙個聚類中心,需要迴圈初始化k次

for i in range(k):

# 隨機在80行裡面選乙個下標

# np.random.uniform() --->預設生成【0,1) 小數,可以更改最小值與最大值

r = int(np.random.uniform(0, index_num))

center[i, :] = data[r, :]

return center

def distance(v1, v2):

"""計算點1 跟點2 的距離

:param v1: 點1

:param v2: 點2

:return: 距離

"""dist = np.sqrt(np.sum(np.power((v1 - v2), 2)))

return dist

def k_means_owns(data, k):

"""自實現聚類演算法

:param data: 所有的樣本資料

:param k: 聚類的類別數目

:return: 聚類中心 、每乙個樣本屬於哪一類別

"""# 獲取data 的 行數

index_num = data.shape[0]

columns_num = data.shape[1]

# 1、初始化聚類中心

center = center_init(data, k)

# print(center)

# 需要將這個樣本屬於哪一類,而且距離也要儲存起來吧

new_data = np.zeros(shape=(index_num,columns_num))

# 2、計算距離

# 每乙個樣本 都與每乙個聚類中心進行計算距離

# 設定開關

flag = true

while flag:

flag = false # 關閉開關

for i in range(index_num):

min_dist = 10000000000

min_index = -1

# i 代表每一行的樣本的下標

for j in range(k):

# 每乙個樣本需要 與每乙個聚類中心進行計算距離

# 樣本點data[i,:] 聚類中心center[j,:]

dist = distance(data[i,:],center[j,:])

if dist < min_dist :

min_dist = dist

min_index = j

if new_data[i,1] != min_index:

flag = true # 開啟

new_data[i,:] = min_dist,min_index

# 調整聚類中心

for p in range(k):

# p 0 1 2 3

# 找出屬於同一類別

p_clustor = data[new_data[:,1] == p,:]

# 計算這一類別的中心

# 先找出 這一類的簇第0 列的均值,與第1列的均值分別作為center 的行、列

center[p,:] = p_clustor[:,0].mean(),p_clustor[:,1].mean()

return new_data,center

def show_res(data,new_data,center):

"""結果展示

:param data: 原始資料

:param new_data: 主要包含了聚類距離與最終類別的資料

:param center: 最終的聚類中心

:return: none

"""# 1、建立畫布

plt.figure()

# 2、繪圖

# 獲取原始資料的行數

index_num = data.shape[0]

#colors = ['r','g','pink','y']

# 繪製散點圖

# 乙個點的繪製,需要給該點進行新增顏色

for i in range(index_num):

plt.scatter(data[i,0],data[i,1],c=colors[int(new_data[i,1])])

# 繪製聚類中心

#plt.plot(center[:,0],center[:,1],'bx',markersize=12)

# print(center[:,0])

# print(center[:,1])

# 3、展示

plt.show()

def main():

"""主函式

:return:

"""# 1、構建資料

data = build_data()

# 2、進行自實現k-means

# 確定聚類的類別數目

k = 4

new_data, center = k_means_owns(data, k)

print(new_data)

print("*" * 80)

print(center)

# 3、結果展示

# 進行繪製結果圖形展示

show_res(data,new_data,center)

if __name__ == '__main__':

main()

k meanas原理自實現

import numpy as np import matplotlib.pyplot as plt def build data 準備資料 return 準備好的資料 data list 載入資料 with open test.txt as f 將所有的元素讀成乙個列表 lines f.readl...

KNN演算法原理與自實現

1.計算已知類別資料集中的點與當前點之間的距離 2.按照距離遞增次序排序 3.選擇與當前距離最小的k個點 4.確定前k個點所在類別的出現概率 5.返回前k個點出現頻率最高的類別作為當前點的 分類 距離計算 param v1 第乙個點的位置 param v2 第二個點的位置 return distan...

自抽樣演算法原理及python實現

後續補充 採用自抽樣方式對資料進行選擇 coding utf 8 引入資料庫包 import pymysql 引入操作excel包 import xlrd import pandas as pd import matplotlib.pyplot as plt import matplotlib im...