用kmeans對有標註少量文字做了個無監督分類,效果一般般。原因可能是
1.停用詞不全面
2.kmeans等分類器對於 高緯度向量 分類能力交叉,可以考慮降維再分類
3.部分詞頻在多個型別的文字中重複高頻出現
# -*- coding: utf-8 -*-
"""created on wed sep 5 13:23:31 2018
@author: lenovo
"""import jieba as jb
import numpy as np
import lightgbm as lgb
import pandas as pd
from gensim.models.doc2vec import doc2vec, taggeddocument
from sklearn import feature_extraction
from sklearn.feature_extraction.text import tfidftransformer
from gensim import corpora,models
from sklearn.feature_extraction.text import countvectorizer
from sklearn.feature_extraction.text import tfidfvectorizer
from gensim.similarities.docsim import similarity
from sk
機器學習 無監督聚類K means
參考 聚類屬於無監督學習,以往的回歸 樸素貝葉斯 svm等都是有類別標籤y的,也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y,只有特徵x,比如假設宇宙中的星星可以表示成三維空間中的點集 優點 原理簡單 速度快 對大資料集有比較好的伸縮性 缺點 需要指定聚類數量k 對異常值敏感 對初始...
無監督學習 K Means聚類
無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...
無監督學習 K means聚類
先用圖來描述k means怎麼做的 對於如下資料 如果你想分成2類 k 2 演算法會隨機生成兩個聚類中心 然後會分別計算每個資料 綠點 與聚類中心的距離 一般是歐式距離 來決定屬於哪個類 距離哪個聚類中心近 這樣,就得到了資料的第一次分類,接下來演算法會計算已分類的資料的 中心 將它們作為新的聚類中...