目錄
要解決的問題
名詞解釋:
演算法思想:
舉例說明:
優缺點參考文章:
從乙個非結構的文字中,在無人工干預的情況下,利用計算機準確提取文字的意思?
備註: 乙個詞的逆文當頻率和乙個詞的常見程度成反比
如果包含詞條t的文件越少,idf越大,則說明詞條具有很好的類別區分能力
step1: 計算詞頻
tf=特定詞在文章中出現的次數
tf = 某個詞在文章職工出現的次數 / 文章的總詞數寫成公式:對乙個特定檔案裡的詞語
以上公式中,
step2, 計算逆文件頻率
通用數學符號表示:
其中:step3: 計算tf-idf
tf-idf = tf * idf可以看出, tf-idf與乙個詞在文件中的出現次數成正比,與該詞在整個語言中的出現次數成反比
假如一篇檔案的總詞語數是100個,而詞語「運維」出現了3次,那麼
tf(運維) = 3 / 100 = 0.03
idf(運維) =
tf-idf的分數 = tf * idf= 0.03 * 2.79 = 0.084
tf-idf演算法的優點是簡單快速,結果比較符合實際情況。
缺點是,單純以"詞頻"衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的
自然語言處理基礎技術之語義角色標註
今天是總結nlp基礎技術的最後一篇,後面開始工具實戰篇,我覺得實踐對新手小白入門是相當有幫助的 語義角色標註定義 以下以基於成分句法樹的語義角色標註為例,任務的解決思路是以句法樹的成分為單元,判斷其是否擔當給定謂詞的語義角色 conll會議2008 2009 年則對依存分析和語義角色標註聯合任務進行...
自然語言處理的語義建模介紹
摘要 本文主要是簡單介紹了自然語言處理 nlp 的語義建模思想。在本文中,我將簡單介紹自然語言處理 nlp 的語義建模思想。語義建模 或語義語法 通常與語言建模 或語言語法 相比較,我們現在從二者的定義和對比來理解語義建模。語義語法和語言語法都定義了理解自然語言句子的形式。語言語法涉及名詞 動詞等語...
search花絮之語義處理
語義處理是自然語言處理前沿的熱點,其關鍵作用正逐漸成為學科領域的共識,而我們的中文資訊處理強項也在於語義處理,所以很自然就想把這一優勢具體體現到搜尋專案中來 但毫無疑問這是乙個摸索的過程。最初我負責標題分析的研究,曾隨機抽取了一些標題示例,例如 移動儲存裝置 的例子 移動儲存裝置 與 讀寫識別裝置 ...