達觀杯資料競賽系列(二)

2021-09-16 23:15:54 字數 1079 閱讀 7289

1,tf-idf:

tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與資訊探勘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。tf-idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。除了tf-idf以外,網際網路上的搜尋引擎還會使用基於鏈結分析的評級方法,以確定檔案在搜尋結果**現的順序。

某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf。因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語。

tf-idf = tf * idf

其中:詞頻 (term frequency, tf) 指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被歸一化(分子一般小於分母 區別於idf),以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)

對於在某一特定檔案裡的詞語重要性可表示為:

逆向檔案頻率 (inverse document frequency, idf)是乙個詞語普遍重要性的度量。某一特定詞語的idf,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取對數得到。

idf計算公式為:

其中:|d|:語料庫中的檔案總數;

上式分母為:包含詞語t_i的檔案數目,如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用:「該分母項」+1。

2,**實現:

可使用sklearn包來實現tf-idf。

例如:

reference:

tf-idf及其演算法:

達觀杯資料競賽 01

比賽位址 這是乙個nlp型別的資料比賽,小白乙個,初步了解 學習目標 2.將訓練集拆分為訓練集和驗證集。要求 資料3 7分,隨機種子2019 3.分享自己對資料以及賽題的理解和發現 首先匯入讀取資料和分割資料所需要用的python包 import pandas as pd from sklearn....

達觀杯文字智慧型挑戰賽任務二(TF IDF)

簡介 tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。tf意思是詞頻 term frequency idf意思是逆文字頻率指數 inverse document frequency 原理 tfidf的主要思...

達觀資料比賽 第二天任務

完成了對達觀資料的初次嘗試之後,現在開始要正兒八經地開始搞一搞nlp的東西了。清明節假期第三天ing,也該收收心了,簡單得用csdn來記錄本次學習任務,並完成打卡吧 任務2.1 時常 2天 1.學習tf idf理論並實踐,使用tf idf表示文字。今天我們來學習乙個在nlp領域裡重要的概念,這個概念...