如何計算idf

2021-06-14 10:22:46 字數 436 閱讀 9078

我們這道乙個單詞的idf的計算公式可以如下:

上面這個公式需要先要有乙個語料庫,如果此時你恰好沒有這樣的乙個語料庫,那你要怎麼去估計這個idf呢?

現在假定在一篇《中國的蜜蜂養殖》文章當中,假定該文長度為1000個詞,「中國」,「蜜蜂」,「養殖」各出現了20次,則這三個詞的詞頻(tf)都為0.02.

為了計算這些詞的idf,有乙個很方便的方法,我們可以將google收錄的中文網頁當成乙個文件集(corpus),那麼如何估算這個文件集合的大小呢? 我們知道在中文文件中,「的」幾乎會出現在每乙個文件中,所以我們可以通過google  「的」 所包含的網頁數目近似認為是整個文件集的大小,發現總共有250億張。

包含"中國"的網頁共有62.3億張,包含"蜜蜂"的網頁為0.484億張,包含"養殖"的網頁為0.973億張。則它們的逆文件頻率(idf)和tf-idf如下:

IDF 聰明的小羊

乙隻小羊跳過了柵欄,兩隻小樣跳過了柵欄,一坨小羊跳過了柵欄 tn c0afsiwal kes,hwit1r g,npt ttessfu ua u hmqik e 所謂柵欄密碼,就是把要加密的明文分成n個一組,然後把每組的第1個字連起來,形成一段無規律的話。不過柵欄密碼本身有乙個潛規則,就是組成柵欄的...

IDF2013 可信計算在中國的發展

本文講的是idf2013 可信計算在中國的發展,4月10日訊息,英特爾資訊科技峰會 idf2013 今日在北京國家會議中心正式拉開了帷幕。本屆idf2013大會以 未來,用 芯 體驗 為主題,宣示英特爾更加以使用者體驗為核心,立足英特爾架構繼續擴大和深化產業合作,全面推動計算技術創新 晶元製造創新 ...

IDF課程 英特爾IT分享雲計算部署經驗

本文講的是idf課程 英特爾it分享雲計算部署經驗,4月13日,在idf2011第二天的技術課程 英特爾it的雲計算圖景 上,來自英特爾it部門的專家介紹了英特爾it部門的雲戰略 英特爾it部門的私有雲實施,以及英特爾it部門對功能階段的劃分it企業私有雲架構,描述l了一幅英特爾it部門的雲計算圖景...