jieba 關鍵字提取
import jieba.analyse
tags = jieba.analyse.extract_tags(str, topk=3)
#str是提取關鍵字的內容,topk是提取關鍵字數
print ",".join(tags)
tf-idf關鍵字提取
是用於資訊檢索和文字挖掘的加權技術。是評估乙個詞對乙個檔案集或乙份檔案的重要程度。tf*idf
tf(詞頻)tf(w,d) = count(w, d) / size(d) count(w, d) :w在文件d中出現的次數 size(d):文件d中的總次數
idf(逆向檔案頻率)idf = log(n / docs(w, d))
1.安裝scikit-learn包
2.安裝jieba分詞包
3.實現
def find_keywords(string_list, num):
"""查詢關鍵字,num代表查詢關鍵字個數"""
fenci_result =
for str in string_list:
vectorizer = countvectorizer()
transformer = tfidftransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(fenci_result))
word = vectorizer.get_feature_names()
weight = tfidf.toarray()
keywords_dict = {}
for i in range(len(word)):
keywords_dict[word[i]] = 0.0
for j in range(len(weight)):
keywords_dict[word[i]] += weight[j][i]
keyword_rank_dict = sorted(keywords_dict.iteritems(), key=lambda d: d[1], reverse=true)
i = 0
result =
for item in keyword_rank_dict:
i += 1
if i > num:
break
print item[0].encode("utf8"),
print item[1]
return result
關鍵字 EXCEL關鍵字提取
如何根據關鍵字列表將單元格中的關鍵字提取出來,本文提供三種方法,看哪一種適合你!開啟excel 表,內容如下 a列為需要提取關鍵字的內容 f列為關鍵字列表 bcd為三種方法演示 方法一 公式 if sumproduct countif a2,f 2 f 13 lookup 0 frequency 0...
關鍵字 php提取關鍵字中文分詞
每日17點準時技術乾貨分享 需求 做seo的keywords時,需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...
python資料分析 關鍵字提取
tf idf term frequencey inverse document frequency 指詞頻 逆文件頻率,它屬於數值統計的範疇。使用tf idf,我們能夠學習乙個詞對於資料集中的乙個文件的重要性。tf idf有兩部分,詞頻和逆文件頻率。首先介紹詞頻,這個詞很直觀,詞頻表示每個詞在文件或...