使用:import jieba # 匯入 jieba
import jieba.posseg as pseg #詞性標註
第一種是tf-idf演算法(term frequency-inverse document frequency, 詞頻-逆檔案頻率),其基本思想為:乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越說明該詞語能夠代表該文章。
第二種是textrank演算法,基本思想:
以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖
計算圖中節點的pagerank,無向帶權圖
**:tf-idf: jieba.analyse.extract_tags(sentence, topk=20, withweight=true, allowpos=())
textrank: jieba.analyse.textrank(sentence, topk=20, withweight=true)
詞性 0.91
jieba 0.85
-- 0.85
分詞 0.84
標註 0.66
提取 0.54
之外 0.42
功能 0.39
除了 0.37
重要 0.29
以及 0.29
進行 0.27
可以 0.25
詞性 1.00
提取 0.99
功能 0.90
分詞 0.90
進行 0.76
標註 0.75
詞性標註
使用jieba.posseg進行詞性的標註。
**:import jieba.posseg
words = jieba.posseg.cut("我來到北京清華大學")
for x, w in words:
print('%s %s' % (x, w))
輸出:我 r
來到 v
北京 ns
清華大學 nt
人工智慧技術分析
人工智慧
機器學習
深度學習
第六屆世界網際網路大會烏鎮峰會簡評
華為人工智慧戰略分析:2019
華為全連線大會
阿里含光 vs
華為公升騰:ai
晶元路在何方
ai人工智慧三要素:資料、算力和演算法
計算機視覺(cv)
任務介紹:分類、檢測、分割、超分、關鍵點識別、影象生成、度量學習
理解深度學習中的分類網路:lenet
pytorch 1.3
tf.gradienttape
詳解:梯度求解利器
tensorflow
高階api
和低階api
tensorflow
靜態圖和eager
機制tensorflow 2.0
tensorflow
高階api
和低階api
tensorflow
除錯技巧
tensorflow
與pytorch
對比pycharm
除錯技巧
解讀谷歌的ai
殺手級專利:dropout
automl
演算法分析(一):基於強化學習的演算法
senet
詳解關於我
緣起:新的開始
ai人工智慧與大資料
NLP基本工具之jieba詳解
jieba的作用只有分詞嗎?jieba支援四種分詞模式 輸出 輸出從上面的例子可以看出 另外,jieba還支援 安裝 pip pip3 easy install install jieba 使用 import jieba 匯入 jieba import jieba.posseg as pseg 詞性...
NLP學習筆記 使用jieba實現關鍵詞提取
tf idf term frequency inverse document frequency,詞頻 逆檔案頻率 是一種統計方法,用以評估乙個詞語對於乙個檔案集或乙個語料庫中的乙份檔案的重要程度,其原理可概括為 乙個詞語在一篇文章 現次數越多,同時在所有文件 現次數越少,越能夠代表該文章 計算公式...
自然語言處理基礎技術工具篇之Jieba
沒想到堅持學習以及寫作總結已經超過半個月了,謝謝大家的關注 點讚 收藏 前面談了nlp的基礎技術,我始終覺得,入門學習一件事情最好的方式就是實踐,加之現在python如此好用,有越來越多的不錯nlp的python庫,所以接下來的一段時間裡,讓我們一起來感受一下這些不錯的工具。我均使用jupyter編...