達觀杯文字智慧型處理day2

2021-09-17 02:00:06 字數 869 閱讀 8868

tf-idf(term frequency-inverse document frequency, 詞頻-逆檔案頻率).是一種用於資訊檢索與資訊探勘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。

詞頻(term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)

公式:詞頻(tf)=某個詞在文章出現的次數/文章的總詞數

逆文件頻率(idf)=log(語料庫的文件總數/包括該詞的文件數+1)

# -*- coding: utf-8 -*-

"""created on sun apr 7 17:38:21 2019

@author: huyahui

"""import pandas as pd

from sklearn.feature_extraction.text import tfidfvectorizer

train = pd.read_csv('e:/data/new_data/train_set.csv', nrows=1000, index_col=none)

tfidf_model = tfidfvectorizer(max_features=10, min_df=1).fit_transform(train['word_seg'])

print(tfidf_model.todense())

達觀杯文字智慧型處理(2)

tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加,但同時會隨著它在語料庫 現的頻率成反比下降。tf idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。tf idf有兩層意思,...

達觀杯文字智慧型處理挑戰賽

筆者嘗試了一下達觀杯的比賽,如下圖所示 import pandas as pd import imp from sklearn.linear model import logisticregression from sklearn.feature extraction.text import cou...

達觀杯文字智慧型處理挑戰賽練習

比賽官方對資料的說明是資料報含兩個檔案 train set.csv和test set.csv 一.初識資料 train set.csv 此資料集用於訓練模型,每一行對應一篇文章。文章分別在 字 和 詞 的級別上做了脫敏處理。共有四列 第一列是文章的索引 id 第二列是文章正文在 字 級別上的表示,即...