idf(inverse document frequency):逆文件頻率。說人話,也就是出現頻率高的詞可能是一些過於常用的詞,例如「的」,「是」,「我」,如果僅僅根據tf來作為衡量指標,那麼結果會沒有意義,所以我們需要設定idf這個指標,它的大小與乙個詞的常見程度成反比。
根據路透社的806791份文件中「car」、「auto」、「insurance」和「best」這四個單詞的頻次,
term
dfcar
18165
auto
6723
insurance
19241
best
25235
以及下表中這四個詞在doc1、doc2和doc3這3個文件的頻次。
tfdoc1
doc2
doc3
car27424
auto333
0insurance033
29best140
17計算關於這四個單詞的三個檔案的tf-idf的值以及tf-idf的權重向量。
step 1.
計算四個單詞的idf值,如下表:
term
dfidf
car18165
log10(806791/18165)=1.65
auto
6723
log10(806791/6723)=2.08
insurance
19241
log10(806791/19241)=1.62
best
25235
log10(806791/25235)=1.50
step 2.
計算四個單詞在三個文件中的tf-idf值,如下表:
tf-idf
doc1
doc2
doc3
car27*1.65=44.55
4*1.65=6.6
24*1.65=39.6
auto
3*2.08=6.24
33*2.08=68.64
0insurance
033*1.62=53.46
29*1.62=46.98
best
14*1.50=21
017*1.50=25.5
step 3.
根據上表的內容,得到tf-idf的權重向量:
SQL 基本概念以及用法
關於庫的概念,就相當於資料夾,表就是資料夾的中的乙個檔案,而資料,就是檔案的內容 針對庫的增刪改查 資料夾 增create database db1 create database db2 charset gbk 查show databases 查所有 show create database db...
基本概念 C 基本概念
由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...
AIOps基本概念以及能力分級
一 概念 aiops是artificial intelligence for it operations,智慧型化運維。簡單說,aiops ai 運維資料 自動化處理 ai devops 終極目標 有ai排程中樞管理的,質量 成本 效率三者兼顧的無人值守運維,力爭所運營系統的綜合收益最大化 aiop...