基於詞袋模型的基本思路
余弦相似度
# 文字相似度
# 基於詞袋模型計算
#countvec = countvectorizer(min_df=5) # 在5個以上章節**現才保留
#words_vec = countvec.fit_transform(words_list) # 得到乙個稀疏矩陣,詞頻矩陣
from sklearn.metrics.pairwise import pairwise_distances
pairwise_distances(words_vec, metric='cosine')
# 使用tf-idf矩陣進行相似度計算
文件聚類問題在本質上已經和普通的聚類分析沒有區別
# 文件聚類
# 為章節新增名稱標籤
chap.index = [df.txt[df.chap == i].iloc[0] for i in chap.index]
# tfidf
# 進行聚類分析
from sklearn.cluster import kmeans
clf = kmeans(n_clusters=5) # 聚為5類
chapcls = chapgrp.agg(sum) # 自動轉為合併字串
mongodb學習心得(五)文件查詢
查詢文件 查詢行資料 查詢所有 語法 db.collection.find query,projection 引數query 可選,使用查詢操作符指定查詢條件 projection 可選,使用投影操作符指定返回的鍵。查詢時返回文件中所有鍵值,只需省略該引數即可 預設省略 如果想格式化返回資料,使用如...
PDF格式分析(五)文件結構之檔案頭
一般情況下,檔案頭,即,pdf檔案的第一行,它用來定義pdf的版本,從而確定該pdf遵循的哪個版本的pdf規範。pdf版本是向下相容的,即高版本的規範,相容低版本的規範。目前我見過的版本有 pdf 1.0 pdf 1.1 pdf 1.2 pdf 1.3 pdf 1.4 pdf 1.5 pdf 1.6...
NLP(五)文字分類
1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...