tf-idf(term frequency-inverse document frequency, 詞頻-逆檔案頻率)是一種統計方法,用以評估乙個詞語對於乙個檔案集或乙個語料庫中的乙份檔案的重要程度,其原理可概括為:
乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越能夠代表該文章計算公式:tf-idf = tf * idf,其中:
import jieba.analyse as anls
s ="此外,公司擬對全資子公司吉林歐亞置業****增資4.3億元,增資後,吉林歐亞置業註冊資本由7000萬元增加到5億元。" \
"吉林歐亞置業主要經營範圍為房地產開發及百貨零售等業務。目前在建吉林歐亞城市商業綜合體專案。" \
"2023年,實現營業收入0萬元,實現淨利潤-139.13萬元。"
for x, w in anls.textrank(s, withweight=
true):
print
('%s %s'
%(x, w)
)
結果如下:
import jieba.analyse
for x, w in analyse.textrank(s, withweight=
true):
print
('%s %s'
%(x, w)
)
結果如下:
使用 jieba.analyse.textrank() 可以新建自定義 textrank 例項。
import jieba.analyse as anls
s ="此外,公司擬對全資子公司吉林歐亞置業****增資4.3億元,增資後,吉林歐亞置業註冊資本由7000萬元增加到5億元。" \
"吉林歐亞置業主要經營範圍為房地產開發及百貨零售等業務。目前在建吉林歐亞城市商業綜合體專案。" \
"2023年,實現營業收入0萬元,實現淨利潤-139.13萬元。"
anls.set_stop_words(
"./spw_use_test.txt"
)anls.set_idf_path(
"idf.txt.big"
)for x, w in anls.extract_tags(s, topk=
20, withweight=
true):
print
('%s %s'
%(x, w)
)
結果如下 NLP 使用jieba分詞
相比於機械法分詞法,jieba聯絡上下文的分詞效果更好。同時使用hmm模型對片語的分類更加準確。測試對如下文字的分詞效果 南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭 後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上...
NLP之路 Jieba庫安裝與使用
在自然語言領域,分詞是很重要的,雖然很多深度文字網路都會自動分詞,但是理解分詞很重要。下面講解乙個jieba庫的安裝與使用 先安裝一下jieba庫 pip install i jieba 以上是使用映象的方法安裝jieba庫 安裝完畢後測試一下 import jieba print jieba.ve...
NLP學習筆記 nlp入門介紹
為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...