使用selenium控制chrome模擬訪問爬取資料
清理爬取資料中的網頁標籤、特殊字元、非中文本元(不包括標點符號)等
分詞。不需要去停用詞,word2vec建模包含上下文資訊
建立300維,迭代5次的模型
句中每個詞的詞向量拼接成乙個陣列,並做歸一化處理
降維成2維資料以便聚類,dbscan聚類對高維資料效果不好。使用linux可加速降維過程,windows c編譯器無法使用
eps∈[0.5, 4.0]
min_****** ∈[4, 40]
使用網格搜尋法,calinski_harabaz_score 評價聚類得分。畫出離 散點-得分 折線圖,取得在離散點少,得分高的引數
在 離散點=40000 左右得到最優引數
根據蔟內每個點到其他點的距離和,距離最短的即為中心點
善用pandas處理資料,傳給網頁顯示即可
ML 教你聚類並構建學習模型處理資料(附資料集)
本文將根據41個描述性分類特徵的維度,運用無監督主成分分析 pca 和層次聚類方法對觀測進行分組。將資料聚類可以更好地用簡單的多元線性模型描述資料或者識別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實現類似網格搜尋的引數優化。結果與討論 本專案中,我們將機器學習技術應用於ame...
ML 教你聚類並構建學習模型處理資料(附資料集)
本文將根據41個描述性分類特徵的維度,運用無監督主成分分析 pca 和層次聚類方法對觀測進行分組。將資料聚類可以更好地用簡單的多元線性模型描述資料或者識別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實現類似網格搜尋的引數優化。結果與討論 本專案中,我們將機器學習技術應用於ame...