文字挖掘學習(三) 關鍵詞提取 TF IDF

2021-09-11 06:30:41 字數 740 閱讀 2876

基本思想:

詞頻tf:term frequency,衡量乙個term在文件**現的有多頻繁

考慮到文章長度的差異,需要對詞頻做標準化

逆文件頻率idf:inverse document frequency, 用於模擬在該語料的實際使用環境中,某乙個term有多重要

idf的具體演算法

tf-idf = tf * idf

# 計算tf-idf

from sklearn.feature_extraction.text import tfidftransformer

# 取出所有分詞

words_list = list(chap.words_list)

countvec = countvectorizer(min_df=5) # 在5個以上章節**現才保留

words_vec = countvec.fit_transform(words_list) # 得到乙個稀疏矩陣,詞頻矩陣

transformer = tfidftransformer()

tfidf = transformer.fit_transform(words_vec) # 基於詞頻矩陣計算tf-idf值

R文字挖掘 文章關鍵詞提取

用統計學語言表達,就是在詞頻的基礎上,對每個詞分配乙個權重 最常用的詞 如 的 是 在 等 給予最小的權重 最常見的詞 如 中文分詞 給予較小的權重 較少見的詞 如 馬爾科夫模型 給予較大的權重。tf計算公式 tf 該次在文件中出現的次數 idf log 文件總數 包含改詞的文件數 1 librar...

文字關鍵詞提取 Python

import numpy as np import pandas as pd import jieba import jieba.analyse 讀取txt文字檔案 def read from file directions decode set utf 8 gb18030 iso 8859 2 g...

TF IDF關鍵詞提取方法的學習

tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。tf意思是詞頻 term frequency idf意思是逆向檔案頻率 inverse document frequency 最近學習了阮一峰先生關於tf i...