AIOPS 自然語義處理之TF IDF演算法詳解

2021-08-28 10:10:58 字數 1036 閱讀 8241

目錄

要解決的問題

名詞解釋:

演算法思想:

舉例說明:

優缺點參考文章:

從乙個非結構的文字中,在無人工干預的情況下,利用計算機準確提取文字的意思?

備註: 乙個詞的逆文當頻率和乙個詞的常見程度成反比

如果包含詞條t的文件越少,idf越大,則說明詞條具有很好的類別區分能力

step1: 計算詞頻

tf=特定詞在文章中出現的次數

tf = 某個詞在文章職工出現的次數 / 文章的總詞數

寫成公式:對乙個特定檔案裡的詞語

以上公式中,

step2, 計算逆文件頻率

通用數學符號表示:

其中:step3: 計算tf-idf

tf-idf = tf * idf 

可以看出, tf-idf與乙個詞在文件中的出現次數成正比,與該詞在整個語言中的出現次數成反比

假如一篇檔案的總詞語數是100個,而詞語「運維」出現了3次,那麼

tf(運維) =  3 / 100 = 0.03

idf(運維) =

tf-idf的分數 = tf * idf= 0.03 * 2.79 = 0.084 

tf-idf演算法的優點是簡單快速,結果比較符合實際情況。

缺點是,單純以"詞頻"衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的

自然語言處理基礎技術之語義角色標註

今天是總結nlp基礎技術的最後一篇,後面開始工具實戰篇,我覺得實踐對新手小白入門是相當有幫助的 語義角色標註定義 以下以基於成分句法樹的語義角色標註為例,任務的解決思路是以句法樹的成分為單元,判斷其是否擔當給定謂詞的語義角色 conll會議2008 2009 年則對依存分析和語義角色標註聯合任務進行...

自然語言處理的語義建模介紹

摘要 本文主要是簡單介紹了自然語言處理 nlp 的語義建模思想。在本文中,我將簡單介紹自然語言處理 nlp 的語義建模思想。語義建模 或語義語法 通常與語言建模 或語言語法 相比較,我們現在從二者的定義和對比來理解語義建模。語義語法和語言語法都定義了理解自然語言句子的形式。語言語法涉及名詞 動詞等語...

search花絮之語義處理

語義處理是自然語言處理前沿的熱點,其關鍵作用正逐漸成為學科領域的共識,而我們的中文資訊處理強項也在於語義處理,所以很自然就想把這一優勢具體體現到搜尋專案中來 但毫無疑問這是乙個摸索的過程。最初我負責標題分析的研究,曾隨機抽取了一些標題示例,例如 移動儲存裝置 的例子 移動儲存裝置 與 讀寫識別裝置 ...