前面所使用的jieba分詞中,是自行收集一些不重要的詞進行過濾的,效率不是很高,並且帶有比較大的主觀性(算是優點,也算是缺點)。
本次則改為使用中文停用詞表來過濾一些詞語。**相對於上一節來說變化的主要是analysis.py 中的analysis函式。
**大致如下:
import jieba.analyse
def analysis(db_name, collection_name):
'''
分析資料
@param db_name mongo資料庫名
@param collection_name 集合名稱
@return 返回collections.counter
'''client = pymongo.mongoclient('localhost', 27017)
mydb = client[db_name]
jianshu = mydb[collection_name]
#獲取所有資料,返回的為乙個迭代器
results = jianshu.find()
#計數器
counter = counter()
#停用詞表
jieba.analyse.set_stop_words('./chinese_stop_words.txt')
for result in results:
text = result['text']
tags = jieba.analyse.extract_tags(text, withweight = true)
#tags = jieba.analyse.extract_tags(text, topk = 100, withweight = true)
for item in tags:
counter[item[0]] += item[1]
return counter
因為本次目標是對所有的文章進行分詞,所以還是需要counter進行計數,只不過新增了乙個停用詞表過濾詞語。
jieba.analyse.extract_tags()中的topk表示取出前若干個頻率最高的詞,返回的是list[tuple(詞, 頻率)],這裡因為是對所有的文章進行分析,所以並沒有加入引數topk;若加入則會根據topk大小而使得生成的詞云也會有所不同。
執行結果大致如下:
更改後的**:
簡書推薦作者風雲榜(爬取簡書app資料)
自 作 爬取張佳瑋138w 知乎關注者 資料視覺化 把json資料複製到chrome瀏覽器的json handle外掛程式裡,方便檢視格式和後續爬蟲裡寫提取資訊 很少看到有人提到這個外掛程式,也是蠻奇怪的 寫好爬蟲 爬取資料並存入csv檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪...
小紅書主頁爬取 小紅書資料爬取教程
該樓層疑似違規已被系統摺疊 隱藏此樓檢視此樓 無意間瀏覽進了小紅書的乙個頁面,既然進來了那麼不好意思,必須得搞一下 首先這裡有個問題,本人對計算機視覺幾乎小白,所以面對滑塊驗證只能靠碰撞獲取cookie,後來發現沒什麼卵用,概率太低,而且這個頁面幾乎也不需要登入,如果遇到需要登入的情況,就手動進 滑...
校花網爬取
聯絡爬蟲使用 1 堆糖校花網api 獲取資料的api 路徑 path 2 簡要介紹爬蟲 2 從解析過程來說 方式2 模擬瀏覽器傳送請求 獲取網頁 提取有用的資料 存放於資料庫或檔案中 爬蟲要做的就是方式2 爬蟲過程圖 3 過程各個階段的主要介紹 1 發起請求 使用http庫向目標站點發起請求,即傳送...