NLP基本工具之jieba 關鍵詞提取

2021-10-05 08:51:13 字數 1889 閱讀 2868

使用:import jieba  # 匯入 jieba

import jieba.posseg as pseg  #詞性標註

第一種是tf-idf演算法(term frequency-inverse document frequency, 詞頻-逆檔案頻率),其基本思想為:乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越說明該詞語能夠代表該文章。

第二種是textrank演算法,基本思想:

以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖

計算圖中節點的pagerank,無向帶權圖

**:tf-idf: jieba.analyse.extract_tags(sentence, topk=20, withweight=true, allowpos=())

textrank: jieba.analyse.textrank(sentence, topk=20, withweight=true)

詞性 0.91

jieba 0.85

-- 0.85

分詞 0.84

標註 0.66

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

進行 0.27

可以 0.25

詞性 1.00

提取 0.99

功能 0.90

分詞 0.90

進行 0.76

標註 0.75

詞性標註

使用jieba.posseg進行詞性的標註。

**:import jieba.posseg

words = jieba.posseg.cut("我來到北京清華大學")

for x, w in words:

print('%s %s' % (x, w))

輸出:我 r

來到 v

北京 ns

清華大學 nt

人工智慧技術分析

人工智慧

機器學習

深度學習

第六屆世界網際網路大會烏鎮峰會簡評

華為人工智慧戰略分析:2019

華為全連線大會

阿里含光 vs

華為公升騰:ai

晶元路在何方

ai人工智慧三要素:資料、算力和演算法

計算機視覺(cv)

任務介紹:分類、檢測、分割、超分、關鍵點識別、影象生成、度量學習

理解深度學習中的分類網路:lenet

pytorch 1.3

tf.gradienttape

詳解:梯度求解利器

tensorflow

高階api

和低階api

tensorflow

靜態圖和eager

機制tensorflow 2.0

tensorflow

高階api

和低階api

tensorflow

除錯技巧

tensorflow

與pytorch

對比pycharm

除錯技巧

解讀谷歌的ai

殺手級專利:dropout

automl

演算法分析(一):基於強化學習的演算法

senet

詳解關於我

緣起:新的開始

ai人工智慧與大資料

NLP基本工具之jieba詳解

jieba的作用只有分詞嗎?jieba支援四種分詞模式 輸出 輸出從上面的例子可以看出 另外,jieba還支援 安裝 pip pip3 easy install install jieba 使用 import jieba 匯入 jieba import jieba.posseg as pseg 詞性...

NLP學習筆記 使用jieba實現關鍵詞提取

tf idf term frequency inverse document frequency,詞頻 逆檔案頻率 是一種統計方法,用以評估乙個詞語對於乙個檔案集或乙個語料庫中的乙份檔案的重要程度,其原理可概括為 乙個詞語在一篇文章 現次數越多,同時在所有文件 現次數越少,越能夠代表該文章 計算公式...

自然語言處理基礎技術工具篇之Jieba

沒想到堅持學習以及寫作總結已經超過半個月了,謝謝大家的關注 點讚 收藏 前面談了nlp的基礎技術,我始終覺得,入門學習一件事情最好的方式就是實踐,加之現在python如此好用,有越來越多的不錯nlp的python庫,所以接下來的一段時間裡,讓我們一起來感受一下這些不錯的工具。我均使用jupyter編...