TF IDF基本概念以及例題

2021-10-21 10:39:21 字數 1247 閱讀 6857

idf(inverse document frequency):逆文件頻率。說人話,也就是出現頻率高的詞可能是一些過於常用的詞,例如「的」,「是」,「我」,如果僅僅根據tf來作為衡量指標,那麼結果會沒有意義,所以我們需要設定idf這個指標,它的大小與乙個詞的常見程度成反比。

根據路透社的806791份文件中「car」、「auto」、「insurance」和「best」這四個單詞的頻次,

term

dfcar

18165

auto

6723

insurance

19241

best

25235

以及下表中這四個詞在doc1、doc2和doc3這3個文件的頻次。

tfdoc1

doc2

doc3

car27424

auto333

0insurance033

29best140

17計算關於這四個單詞的三個檔案的tf-idf的值以及tf-idf的權重向量。

step 1.

計算四個單詞的idf值,如下表:

term

dfidf

car18165

log10(806791/18165)=1.65

auto

6723

log10(806791/6723)=2.08

insurance

19241

log10(806791/19241)=1.62

best

25235

log10(806791/25235)=1.50

step 2.

計算四個單詞在三個文件中的tf-idf值,如下表:

tf-idf

doc1

doc2

doc3

car27*1.65=44.55

4*1.65=6.6

24*1.65=39.6

auto

3*2.08=6.24

33*2.08=68.64

0insurance

033*1.62=53.46

29*1.62=46.98

best

14*1.50=21

017*1.50=25.5

step 3.

根據上表的內容,得到tf-idf的權重向量:

SQL 基本概念以及用法

關於庫的概念,就相當於資料夾,表就是資料夾的中的乙個檔案,而資料,就是檔案的內容 針對庫的增刪改查 資料夾 增create database db1 create database db2 charset gbk 查show databases 查所有 show create database db...

基本概念 C 基本概念

由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...

AIOps基本概念以及能力分級

一 概念 aiops是artificial intelligence for it operations,智慧型化運維。簡單說,aiops ai 運維資料 自動化處理 ai devops 終極目標 有ai排程中樞管理的,質量 成本 效率三者兼顧的無人值守運維,力爭所運營系統的綜合收益最大化 aiop...