tf-idf算是nlp工程師必須掌握的入門級別的演算法。作為興趣愛好,之前曾閱讀過幾篇介紹該演算法的部落格,對其只是知道個大概。最近在看吳軍老師的《數學之美》,裡面對tf-idf的介紹使得我對該演算法有了更深刻的認識。現將個人對該演算法的理解整理如下:
tf-idf是一種統計方法,用來評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它①在檔案**現的次數成正比增加,但同時會隨著它②在語料庫**現的頻率成反比下降。
其中,①通過演算法的tf部分來進行評估;②通過idf來進行評估。
0.0017*log(1000/3)+0.0023*log(1000/20)+0.0113*log(1000/1000)
TF IDF演算法總結
tf idf演算法的全稱叫 term frequency inverse document frequency 詞頻 逆文件頻率演算法tf 當前詞 出現在文 章中煩人 個數文章 中總的詞 個數當然,以上說的只是從tf 詞頻 角度來分析,那我們接下來就要從tf idf來說了。tf idf簡單但強大。在...
個人linux總結
個人linux總結 1.更改telnet登入慢的問題 cd etc vi resolv.conf 將裡面內容清空 2.更改root使用者不能直接遠端登入問題 cd etc cd pam.d vi login 注釋掉這行 auth required pam securetty.so 該行注釋掉 3.掛...
ssh個人總結
技術面試官叫我談談 ssh優缺點 平時用起來倒是挺順手.但是從來沒有系統的總結過.導致很多點會都沒有說出來.這次我認真總結了一下.常說的好處 開源 常說的壞處 配置檔案過大我就不提了 struts 優點 收集,驗證表單資料相比傳統servlet簡單 優雅的實現可配置的請求 缺點 屬侵入設計 acti...