第七章 文字聚類

2021-08-20 14:59:35 字數 970 閱讀 4192

載入影片資料

資料清洗,獲取html**中的文字內容

為每個專案生成索引的全集(在本例中它只是排名),以後我將使用這個得分

載入 nltk 的英文停用詞作為「stopwords」變數

載入 nltk 的 snowballstemmer 作為「stemmer」變數

這裡定義了乙個分詞器(tokenizer)和詞幹分析器(stemmer),它們會輸出給定文字詞幹化後的詞集合

# 首先分句,接著分詞,而標點也會作為詞例存在

# 過濾所有不含字母的詞例(例如:數字、純標點)

# 首先分句,接著分詞,而標點也會作為詞例存在

# 過濾所有不含字母的詞例(例如:數字、純標點)

# 擴充列表後變成了非常龐大的二維(flat)詞彙表

#對每個電影的劇情簡介進行分詞和詞幹化

#定義向量化引數

# 向量化劇情簡介文字

#k-means聚類

# 注釋語句用來儲存你的模型

# 因為我已經從 pickle 載入過模型了

# 為了凝聚(aggregation),由聚類分類。

# 每個聚類的平均排名(1 到 100)

# 按離質心的距離排列聚類中心,由近到遠

# 每個聚類選 6 個詞    

##多維尺度分析mds    

# 將二位平面中繪製的點轉化成兩個元素(components)

##視覺化聚類

# 用字典設定每個聚類的顏色

# 用字典設定每個聚類名稱

# 在 ipython 中內聯(inline)演示 matplotlib 繪圖

# 用 mds 後的結果加上聚類編號和繪色建立 dataframe

# 聚類歸類

# 設定繪圖

# 對聚類進行迭代並分布在繪圖上

# 在座標點為 x,y 處新增影片名作為標籤(label)

# 以下注釋語句可以儲存需要的繪圖

##層次聚類

第七章 復用類

1 子類可以使用父類public protected的方法和成員。子類可以過載父類的方法,但是方法名和引數列表相同,當返回型別不同的方法在子類中會出現編譯期錯誤。由8.4節中允許 犯規協變返回型別,即子型別。2 基類中private可視為基類的結構,對外無任何影響,所以在子類中出現乙個方法名和引數列...

第七章 復用類

class cleaner public cleaner private string s cleaner s a public void dilute public void scrub public string tostring public static void main string a...

第七章 類(重點)

在c 語言中,我們使用類定義自己的資料型別。資料抽象能幫助我們將物件的具體實現與物件所能執行的操作分離開來。資料抽象是一種依賴於介面和實現分離的程式設計 以及設計 技術。類的介面包括使用者所能執行的操作 類的實現則包括類的資料成員 負責介面實現的函式體以及定義類所需的各種私有函式。封裝實現了類的介面...